Nicht zulassen: /?q=search/ in robot.txt

Question

Zunächst einmal ist es ein RoboterS.txt. Außerdem bedeutet die Angabe von etwas darin nicht automatisch, dass Sie „die Suche nicht im Web Scraping durchführen können“. Es ist nur eine Anweisung, der die Roboter folgen müssen. Aber es wird sie nicht davon abhalten, diese URLs abzurufen, wenn sie das wollen (d. h. einige bösartige Web-Fetcher und Skripte könnten Ihre robots.txt einfach ignorieren oder sogar Informationen daraus verwenden, um Informationen abzurufen, die Sie schützen wollten).

Und um Ihre Frage zu beantworten: Sie können mit robots.txt keinen Anker angeben. Dies wurde hier beantwortet:https://stackoverflow.com/questions/53676849/robots-txt-handling-a-in-a-url

Abgesehen von der Angabe einer Direktive „Disallow“ in robots.txt wird der Standort nicht berücksichtigt. Es handelt sich lediglich um eine Teilzeichenfolgenübereinstimmung irgendwo in der URL.

Answer 1

Zunächst einmal ist es ein RoboterS.txt. Außerdem bedeutet die Angabe von etwas darin nicht automatisch, dass Sie „die Suche nicht im Web Scraping durchführen können“. Es ist nur eine Anweisung, der die Roboter folgen müssen. Aber es wird sie nicht davon abhalten, diese URLs abzurufen, wenn sie das wollen (d. h. einige bösartige Web-Fetcher und Skripte könnten Ihre robots.txt einfach ignorieren oder sogar Informationen daraus verwenden, um Informationen abzurufen, die Sie schützen wollten).

Und um Ihre Frage zu beantworten: Sie können mit robots.txt keinen Anker angeben. Dies wurde hier beantwortet:https://stackoverflow.com/questions/53676849/robots-txt-handling-a-in-a-url

Abgesehen von der Angabe einer Direktive „Disallow“ in robots.txt wird der Standort nicht berücksichtigt. Es handelt sich lediglich um eine Teilzeichenfolgenübereinstimmung irgendwo in der URL.

Nicht zulassen: /?q=search/ in robot.txt

Antwort1

verwandte Informationen