
У меня есть список из 307 URL-адресов веб-страниц. Можно ли указать Google (или другой поисковой системе) искать определенное ключевое слово ТОЧНО только на этих 307 веб-сайтах?
Я читал некоторые советы, которые говорят циклически проходить по списку с помощью скрипта или чего-то подобного и выполнять поиск в Google для каждого элемента списка. Но разве это не заставит Google думать, что вы бот, и блокировать поиск?
Другой предложенный метод заключался в загрузке этих 307 веб-страниц с помощью wget (возможно, с использованием скрипта) или аналогичного, а затем в локальном поиске на этих загруженных веб-страницах. Но это заняло бы много времени, в то время как поиск Google был бы практически мгновенным.
Разве у Google нет встроенного метода поиска по списку URL-адресов?
решение1
Здесь задается несколько вопросов, я постараюсь ответить на них в правильном порядке.
Можно ли заставить Google (или другую поисковую систему) искать определенное ключевое слово ТОЧНО только на этих 307 веб-сайтах?
Посмотрите на Googleпараметры поиска. Вы можете искать точный термин, цитируя его "как это". Затем вы можете отфильтровать подомен(не то же самое, что url!) с site:
опцией. В вашем случае вы бы построили строку поиска в таком формате:
"keyword" site:site1.com site:site2.com ...site:site307.com
...прокручивать список с помощью скрипта... Но не подумает ли Google, что вы бот?
Распространенный подход при выполнении нескольких поисков Google с помощью скрипта — вставка (возможно, случайных) задержек, чтобы не выглядеть подозрительно.
...загрузить эти 307 веб-страниц с помощью wget... Это займет много времени.
Если вам нужно время от времени проверять эти веб-сайты, вы можете рассмотреть возможность сохранения локальной копии веб-страниц и периодического их обновления; тогда локальный поиск должен быть очень быстрым. В противном случае Google будет быстрее, поскольку он работает с кэшированными результатами и не должен ждать подключения и загрузки. Но, если веб-сайт не упал или не испытывает серьезных проблем, все должно быть закончено примерно через 30 секунд. Предположим, у вас есть список URL-адресов в файле с именем list.txt
, вам просто нужно будет запустить:
cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'
для просмотра соответствующего содержимого или:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'
для URL-адресов или:
cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'
для отображения обоих.
Разве у Google нет встроенного метода поиска по списку URL-адресов?
Да, естьПользовательский поиск:
С помощью пользовательского поиска Google вы можете:
- Создавать пользовательские поисковые системы, которые выполняют поиск по указанному набору сайтов или страниц.