Файл robots.txt с более строгими правилами для определенных пользовательских агентов

Файл robots.txt с более строгими правилами для определенных пользовательских агентов

Я немного не понимаю точный синтаксис robots.txt, но я пытаюсь добиться следующего:

  • Сообщить всем пользовательским агентам не сканировать определенные страницы
  • Попросите определенных пользовательских агентов не сканировать ничего

(по сути, некоторые страницы с огромными объемами данных никогда не следует сканировать; а некоторые прожорливые, но бесполезные поисковые системы, например Cuil, вообще никогда не должны ничего сканировать)

Если я сделаю что-то вроде этого:

User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx

User-agent: twiceler
Disallow: /

...будет ли он работать так, как и ожидалось, со всеми пользовательскими агентами, соответствующими первому правилу и пропускающими страницу 1, страницу 2 и страницу 3; и twiceler, соответствующими второму правилу и пропускающими все?

решение1

Похоже, вы разбираетесь в этом лучше, чем вам кажется. :)

решение2

Хм, зависит от краулера и от того, работает ли он только на основе первого совпадения. IE twiceler может сначала увидеть запись с подстановочным знаком и не проверять дальше, поэтому не увидит Disallow: /

Связанный контент