Google-Bot stolpert über eine völlig normale robots.txt und dann über eine nicht vorhandene robots.txt

Google-Bot stolpert über eine völlig normale robots.txt und dann über eine nicht vorhandene robots.txt

Ich habe zwei Domänennamen, die auf denselben virtuellen Server verweisen. Einer von ihnen,http://ilarikaila.com, ist eine funktionierende Broschüren-Website, die ich für einen Freund erstellt habe. Ich habe die andere verwendet,http://teemuleisti.com, um die Site zu testen, bevor sie öffentlich gemacht wird – im Nachhinein wahrscheinlich keine gute Idee.

Lange Zeit war der Google-Bot bei der Suche nach "ilari kaila" auf zwei Arten verwirrt, aber während ich dies schrieb, schien das zweite Problem verschwunden zu sein (beim Bearbeiten hinzugefügt:nein, ist es nicht).

Verwirrung die erste

Die Google-Suchergebnisse für „ilari kaila“ enthalten zwar ilarikaila.com, jedoch nur auf der dritten Seite der Ergebnisse, und statt eines Ausschnitts der Site enthält das Ergebnis den Text „Eine Beschreibung für dieses Ergebnis ist aufgrund der robots.txt-Datei dieser Site nicht verfügbar – erfahren Sie mehr.“.

Der Inhalt der robots.txtDatei war einfach

User-agent: *
Allow: /

was sicherlich keinen Bot davon abhalten sollte, den Inhalt der Site aufzulisten. Tatsächlich, als die Suchbegriffe "ilari kaila" eingegeben wurdenbing.com, die Site erschien als erstes Suchergebnis (und das tut es immer noch) und es wurde und wird ein korrektes Snippet angezeigt.

Vor ein paar Tagen habe ich robots.txtes komplett entfernt (oder besser gesagt umbenannt not_robots.txt), aber Google zeigt immer noch dasselbe Ergebnis mit Verweis auf robots.txt an. (Das ist wahrscheinlich der Grund, warum die Site nur auf der dritten Seite der Suchergebnisse erscheint.)

Verwirrung die zweite

Ursprünglich zeigten Anfragen an teemuleisti.com dieselben Seiten wie an ilarikaila.com, da ich serverin meiner Datei keinen separaten Block für erstere geschrieben hatte nginx.conf. Das habe ich vor ein paar Wochen getan und eine sehr einfache HTML-Seite für die erstere Site geschrieben.

Dennoch zeigten die Google-Suchergebnisse für „ilari kaila“ Links zur Site teemuleisti.com, sogar etwa zwei Wochen nachdem ich das vorhergehende getan hatte, und bis vor einer Stunde. Dieses Problem scheint jedoch behoben worden zu sein (beim Bearbeiten hinzugefügt:nein, ist es nicht), während ich diese Frage geschrieben habe, vielleicht weil ich gerade die folgende Weiterleitung zur nginx.confDatei des Servers hinzugefügt habe:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

zur Weiterleitung von Suchergebnissen wiehttp://teemuleisti.com/press(das einen Ausschnitt des Inhalts zeigte, der eigentlichhttp://ilarikaila.com/press) zur einzigen Seite von teemuleisti.com, die Besucher nun über das Problem mit der Indizierung durch Google informiert und einen Link zur richtigen Site enthält.

Dies scheint den Google-Bot in Bezug auf dieses Problem auf den richtigen Weg gebracht zu haben – ich sehe jedoch keinen Unterschied, da es seit Wochen keine Unterseiten unter teemuleisti.com gibt – aber was ist der Grund für die Verwirrung bezüglich robots.txt?

Beim Bearbeiten hinzugefügt:Wenn ich nach „Ilari Kaila Komponist“ google, verweist die zweite Seite der Suchergebnisse immer noch auf teemuleisti.com. Dieses Problem ist also auch noch nicht behoben.

Antwort1

So etwas gibt es Allowin robots.txt nicht, daher robots.txtist Ihre Datei ungültig. Das verwirrt die Bots, da nur Beschreibungen erwartet werden Agent. DisallowSie sollten robots.txt entfernen oder stattdessen leer lassen, wenn Sie möchten, dass der gesamte Kontext indexiert wird.

Mehr Info:http://www.robotstxt.org/robotstxt.html

verwandte Informationen