Запретить: /?q=search/ в robot.txt

Запретить: /?q=search/ в robot.txt

Означает ли /?q=search/, что я не могу парсить поисковые сайты, которые заканчиваются на =search/? Могу ли я парсить URL, заканчивающийся на =0#search?

решение1

Прежде всего это робот.с.txt. Далее, предоставление чего-либо в нем не означает магическим образом, что вы "не можете выполнить веб-скрапинг поиска". Это просто директива для роботов, которой им следовать. Но это не остановит их от извлечения этих URL, если они захотят (т. е. некоторые вредоносные веб-извлекатели и скрипты могут просто игнорировать ваш robots.txt или даже использовать информацию из него, чтобы извлечь информацию, которую вы хотели защитить).

И отвечая на ваш вопрос, вы не можете указать якорь с robots.txt. На это был дан ответ здесь:https://stackoverflow.com/questions/53676849/robots-txt-handling-a-in-a-url

Помимо указания директивы Disallow в robots.txt не включает местоположение. Это просто совпадение подстроки в любом месте URL.

Связанный контент