
私は自分のサーバーにWordPressのブログを持っていますが、そのブログでは次のようなURLに中国語の文字を含む永続的なリンクを使っていました。http://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/。
数か月前、私はすべてのURLを英語の説明に変更しました。http://techblog.zellux.czm.cn/2009/05/page-coloring/、sitemap.xml を自動的に生成するプラグインをインストールし、Google ウェブマスター ツールに送信しました。
数ヶ月後、私は再びGoogleウェブマスターツールをチェックしました。診断->ウェブクロールでは、41のURLが見つかりませんでした。そのすべてに、以前のものと同様に中国語の文字のUnicodeが含まれていました。リンク元コラムはみんな利用不可サイトマップ -> サイトマップの詳細を見ると、115 個の URL のうち 15 個のみがインデックスに登録されていると表示されています。
私の問題は、Google が非推奨の URL をクロールするのをやめ、sitemap.xml で指定された URL のみをクロールするようにするにはどうすればよいかということです。
答え1
robots.txt ファイルを使用して、指定したページをクロールから除外できます。次のようになります。
User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3
任意のテキスト エディターでこれを作成し、ルート ディレクトリにアップロードします (または、既存の robots.txt ファイルがある場合はそれを編集します)。
ウェブマスターツールにはrobots.txtファイルを生成するツールもあります(ツール > robots.txtの生成)