Google が Wikipedia の歴史セクションを検索しないのはなぜですか?

Question

ウェブサイトエンジンは、これらのページをインデックスしないように明示的に要求します。履歴ページには、検索エンジンが認識するヘッダータグがあります。

<meta name="robots" content="noindex,nofollow"/>

（noindexページの直接のコンテンツを除外し、nofollow検索クローラーにそれ以上のリンクを無視するように指示しますからこのページ。後者の属性は、個々の <a> リンクにも付加できます。

考えられる理由の 1 つは、検索エンジンが「現在の」ページと「過去の」ページを簡単に区別できないため、削除できない古いデータが結果に大量に表示されてしまう可能性があることです。

もう 1 つの理由は、MediaWiki が履歴をデルタ圧縮形式で保存し、履歴項目が古ければ古いほど、解凍に必要な CPU が増えることです。(私の知る限り、無限に増えないように定期的に「完全な」チェックポイントがありますが、それでもリソースの使用量はゼロではありません。) これに、各 wiki ページの何百、何千ものリビジョンを掛け合わせると、クローラーがすぐにサーバーを過負荷にする可能性があります。

最後に、歴史セクションとは別に、Wikipedia は/robots.txt特定の URL をインデックスから除外するためにもこのファイルを使用します。たとえば、robots.txtファイル「削除投票」スレッドや「ユーザー名変更リクエスト」ページなどはすべて除外されます。

Answer 1