Ich habe zwei Domänennamen, die auf denselben virtuellen Server verweisen. Einer von ihnen,http://ilarikaila.com, ist eine funktionierende Broschüren-Website, die ich für einen Freund erstellt habe. Ich habe die andere verwendet,http://teemuleisti.com, um die Site zu testen, bevor sie öffentlich gemacht wird – im Nachhinein wahrscheinlich keine gute Idee.
Lange Zeit war der Google-Bot bei der Suche nach "ilari kaila" auf zwei Arten verwirrt, aber während ich dies schrieb, schien das zweite Problem verschwunden zu sein (beim Bearbeiten hinzugefügt:nein, ist es nicht).
Verwirrung die erste
Die Google-Suchergebnisse für „ilari kaila“ enthalten zwar ilarikaila.com, jedoch nur auf der dritten Seite der Ergebnisse, und statt eines Ausschnitts der Site enthält das Ergebnis den Text „Eine Beschreibung für dieses Ergebnis ist aufgrund der robots.txt-Datei dieser Site nicht verfügbar – erfahren Sie mehr.“.
Der Inhalt der robots.txt
Datei war einfach
User-agent: *
Allow: /
was sicherlich keinen Bot davon abhalten sollte, den Inhalt der Site aufzulisten. Tatsächlich, als die Suchbegriffe "ilari kaila" eingegeben wurdenbing.com, die Site erschien als erstes Suchergebnis (und das tut es immer noch) und es wurde und wird ein korrektes Snippet angezeigt.
Vor ein paar Tagen habe ich robots.txt
es komplett entfernt (oder besser gesagt umbenannt not_robots.txt
), aber Google zeigt immer noch dasselbe Ergebnis mit Verweis auf robots.txt an. (Das ist wahrscheinlich der Grund, warum die Site nur auf der dritten Seite der Suchergebnisse erscheint.)
Verwirrung die zweite
Ursprünglich zeigten Anfragen an teemuleisti.com dieselben Seiten wie an ilarikaila.com, da ich server
in meiner Datei keinen separaten Block für erstere geschrieben hatte nginx.conf
. Das habe ich vor ein paar Wochen getan und eine sehr einfache HTML-Seite für die erstere Site geschrieben.
Dennoch zeigten die Google-Suchergebnisse für „ilari kaila“ Links zur Site teemuleisti.com, sogar etwa zwei Wochen nachdem ich das vorhergehende getan hatte, und bis vor einer Stunde. Dieses Problem scheint jedoch behoben worden zu sein (beim Bearbeiten hinzugefügt:nein, ist es nicht), während ich diese Frage geschrieben habe, vielleicht weil ich gerade die folgende Weiterleitung zur nginx.conf
Datei des Servers hinzugefügt habe:
server {
listen 80;
server_name teemuleisti.com www.teemuleisti.com;
...
location = /index.html {
break;
}
location ~* ^/(.+)$ {
rewrite ^ http://teemuleisti.com redirect;
}
}
zur Weiterleitung von Suchergebnissen wiehttp://teemuleisti.com/press(das einen Ausschnitt des Inhalts zeigte, der eigentlichhttp://ilarikaila.com/press) zur einzigen Seite von teemuleisti.com, die Besucher nun über das Problem mit der Indizierung durch Google informiert und einen Link zur richtigen Site enthält.
Dies scheint den Google-Bot in Bezug auf dieses Problem auf den richtigen Weg gebracht zu haben – ich sehe jedoch keinen Unterschied, da es seit Wochen keine Unterseiten unter teemuleisti.com gibt – aber was ist der Grund für die Verwirrung bezüglich robots.txt
?
Beim Bearbeiten hinzugefügt:Wenn ich nach „Ilari Kaila Komponist“ google, verweist die zweite Seite der Suchergebnisse immer noch auf teemuleisti.com. Dieses Problem ist also auch noch nicht behoben.
Antwort1
So etwas gibt es Allow
in robots.txt nicht, daher robots.txt
ist Ihre Datei ungültig. Das verwirrt die Bots, da nur Beschreibungen erwartet werden Agent
. Disallow
Sie sollten robots.txt entfernen oder stattdessen leer lassen, wenn Sie möchten, dass der gesamte Kontext indexiert wird.
Mehr Info:http://www.robotstxt.org/robotstxt.html