robots.txt-Datei mit restriktiveren Regeln für bestimmte Benutzeragenten

robots.txt-Datei mit restriktiveren Regeln für bestimmte Benutzeragenten

Ich bin mir über die genaue Syntax von robots.txt nicht ganz im Klaren, aber ich versuche Folgendes zu erreichen:

  • Weisen Sie alle Benutzeragenten an, bestimmte Seiten nicht zu crawlen.
  • Weisen Sie bestimmte Benutzeragenten an, nichts zu crawlen

(grundsätzlich sollten einige Seiten mit enormen Datenmengen niemals gecrawlt werden; und einige gefräßige, aber nutzlose Suchmaschinen, z. B. Cuil, sollten niemals etwas crawlen)

Wenn ich so etwas mache:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

..wird es wie erwartet durchlaufen, wobei alle Benutzeragenten der ersten Regel entsprechen und Seite1, Seite2 und Seite3 übersprungen werden, und Doubleler der zweiten Regel entspricht und alles überspringt?

Antwort1

Es scheint, dass Sie es besser verstehen, als Sie denken. :)

Antwort2

Hmm, hängt vom Crawler ab und davon, ob er nur nach dem ersten Treffer vorgeht. IE-Twitcher sieht möglicherweise zuerst den Platzhaltereintrag und prüft nicht weiter, sodass er das Disallow: / nicht sieht.

verwandte Informationen