Я немного не понимаю точный синтаксис robots.txt, но я пытаюсь добиться следующего:
- Сообщить всем пользовательским агентам не сканировать определенные страницы
- Попросите определенных пользовательских агентов не сканировать ничего
(по сути, некоторые страницы с огромными объемами данных никогда не следует сканировать; а некоторые прожорливые, но бесполезные поисковые системы, например Cuil, вообще никогда не должны ничего сканировать)
Если я сделаю что-то вроде этого:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
...будет ли он работать так, как и ожидалось, со всеми пользовательскими агентами, соответствующими первому правилу и пропускающими страницу 1, страницу 2 и страницу 3; и twiceler, соответствующими второму правилу и пропускающими все?
решение1
Похоже, вы разбираетесь в этом лучше, чем вам кажется. :)
решение2
Хм, зависит от краулера и от того, работает ли он только на основе первого совпадения. IE twiceler может сначала увидеть запись с подстановочным знаком и не проверять дальше, поэтому не увидит Disallow: /