
Ich habe ein Wordpress-Blog auf meinem eigenen Server, das permanente Links mit chinesischen Schriftzeichen in URLs wiehttp://techblog.zellux.czm.cn/2008/03/ics-lab4-%E7%BB%8F%E9%AA%8C/.
Vor einigen Monaten habe ich alle URLs mit englischen Beschreibungen geändert wiehttp://techblog.zellux.czm.cn/2009/05/page-coloring/, und habe ein Plugin installiert, um sitemap.xml automatisch zu generieren und es an Google Webmaster Tools zu übermitteln.
Jetzt, mehrere Monate später, habe ich Google Webmaster Tools erneut überprüft. Unter Diagnose->Web Crawl wurde angezeigt, dass 41 URLs nicht gefunden werden konnten, die alle Unicode chinesischer Zeichen enthielten, wie die vorherige, und in derVerlinkt vonSpalte waren sie allenicht verfügbar. Bezüglich der Sitemaps->Sitemap-Details hieß es, dass nur 15 von 115 URLs indexiert waren.
Mein Problem besteht also darin, wie ich Google dazu bringen kann, das Crawlen veralteter URLs einzustellen und nur noch die in sitemap.xml angegebenen zu crawlen.
Antwort1
Sie können eine robots.txt-Datei verwenden, um bestimmte Seiten vom Crawlen auszuschließen. Sie würde folgendermaßen aussehen:
User-Agent: Googlebot
Disallow: /file-1
Disallow: /file-2
Disallow: /file-3
Erstellen Sie dies in einem beliebigen Texteditor und laden Sie es in Ihr Stammverzeichnis hoch (oder bearbeiten Sie die vorhandene robots.txt-Datei, falls dort eine vorhanden ist).
Webmaster Tools verfügt auch über ein Tool zum Generieren einer robots.txt-Datei (Tools > robots.txt generieren).