Nicht zulassen: /?q=search/ in robot.txt

Nicht zulassen: /?q=search/ in robot.txt

Bedeutet /?q=search/, dass ich die Suchwebsites, die mit =search/ enden, nicht im Web Scraping durchsuchen kann? Kann ich eine URL durchsuchen, die mit =0#search endet?

Antwort1

Zunächst einmal ist es ein RoboterS.txt. Außerdem bedeutet die Angabe von etwas darin nicht automatisch, dass Sie „die Suche nicht im Web Scraping durchführen können“. Es ist nur eine Anweisung, der die Roboter folgen müssen. Aber es wird sie nicht davon abhalten, diese URLs abzurufen, wenn sie das wollen (d. h. einige bösartige Web-Fetcher und Skripte könnten Ihre robots.txt einfach ignorieren oder sogar Informationen daraus verwenden, um Informationen abzurufen, die Sie schützen wollten).

Und um Ihre Frage zu beantworten: Sie können mit robots.txt keinen Anker angeben. Dies wurde hier beantwortet:https://stackoverflow.com/questions/53676849/robots-txt-handling-a-in-a-url

Abgesehen von der Angabe einer Direktive „Disallow“ in robots.txt wird der Standort nicht berücksichtigt. Es handelt sich lediglich um eine Teilzeichenfolgenübereinstimmung irgendwo in der URL.

verwandte Informationen