Google ボットは、完全に正常な robots.txt でトリップし、次に存在しない robots.txt でトリップします

Google ボットは、完全に正常な robots.txt でトリップし、次に存在しない robots.txt でトリップします

同じ仮想サーバーを指すドメイン名が2つあります。そのうちの1つは、http://ilarikaila.comは友人のために作ったパンフレットのウェブサイトです。私はもう1つ、http://teemuleisti.com、サイトを公開する前にテストドライブする - 今思えば、それはおそらく悪い考えだった。

長い間、Googleボットは「ilari kaila」の検索に関して2つの意味で混乱していましたが、私がこれを書いている間に、2番目の問題は消えたようです(編集時に追加:いいえ、そうではありません。

最初の混乱

「ilari kaila」の Google 検索結果には ilarikaila.com が含まれますが、結果の 3 ページ目にのみ含まれ、サイトの抜粋ではなく、「このサイトの robots.txt により、この結果の説明は利用できません - 詳細はこちら」というテキストが含まれます。

ファイルの内容はrobots.txt単純に

User-agent: *
Allow: /

ボットがサイトのコンテンツをリストアップするのを妨げるはずはありません。実際、「ilari kaila」という検索語を入力すると、詳しくはこちら、サイトが最初の検索結果として表示され (現在も表示されています)、正しいスニペットが表示されました。

数日前、 をrobots.txt完全に削除しました(正確には、 という名前に変更しましたnot_robots.txt)が、Google は robots.txt を参照して、まだ同じ結果を表示しています。(おそらくこれが、サイトが検索結果の 3 ページ目にしか表示されない理由です。)

混乱の第二

server当初、teemuleisti.com へのリクエストは ilarikaila.com と同じページを表示していました。これは、ファイル内に前者用の個別のブロックを記述していなかったためですnginx.conf。数週間前にそれを実行し、前者のサイト用に非常にシンプルな HTML ページを 1 つ記述しました。

それにもかかわらず、私が上記の操作を行ってから約 2 週間後、1 時間前まで、「ilari kaila」の Google 検索の結果には、teemuleisti.com へのリンクが表示されていました。ただし、この問題は解決されたようです (編集時に追加:いいえ、そうではありません)。おそらく、サーバーのnginx.confファイルに次のリダイレクトを追加したためでしょう。

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

検索結果をリダイレクトするhttp://teemuleisti.com/press(実際にはhttp://ilarikaila.com/press)を teemuleisti.com の唯一のページに追加しました。このページでは現在、訪問者に Google のインデックス作成に関する問題を通知し、正しいサイトへのリンクを掲載しています。

これにより、Google ボットがその問題を正しく解決したようですが、数週間にわたって teemuleisti.com の下にサブページがなかったため、どのような違いがあったのかはわかりませんが、 についての混乱は何なのでしょうかrobots.txt?

編集時に追加:「ilari kaila composer」を Google で検索すると、検索結果の 2 ページ目はまだ teemuleisti.com を指しているので、この問題もまだ解決されていません。

答え1

Allowrobots.txt にはのようなものはないので、 は無効です。と説明robots.txtのみを期待しているため、ボットが混乱します。 すべてのコンテキストをインデックス化したい場合は、robots.txt を削除するか、空にする必要があります。AgentDisallow

より詳しい情報:http://www.robotstxt.org/robotstxt.html

関連情報