Выполнить поиск по ключевому слову только на определенном списке веб-страниц?

Выполнить поиск по ключевому слову только на определенном списке веб-страниц?

У меня есть список из 307 URL-адресов веб-страниц. Можно ли указать Google (или другой поисковой системе) искать определенное ключевое слово ТОЧНО только на этих 307 веб-сайтах?

Я читал некоторые советы, которые говорят циклически проходить по списку с помощью скрипта или чего-то подобного и выполнять поиск в Google для каждого элемента списка. Но разве это не заставит Google думать, что вы бот, и блокировать поиск?

Другой предложенный метод заключался в загрузке этих 307 веб-страниц с помощью wget (возможно, с использованием скрипта) или аналогичного, а затем в локальном поиске на этих загруженных веб-страницах. Но это заняло бы много времени, в то время как поиск Google был бы практически мгновенным.

Разве у Google нет встроенного метода поиска по списку URL-адресов?

решение1

Здесь задается несколько вопросов, я постараюсь ответить на них в правильном порядке.

Можно ли заставить Google (или другую поисковую систему) искать определенное ключевое слово ТОЧНО только на этих 307 веб-сайтах?

Посмотрите на Googleпараметры поиска. Вы можете искать точный термин, цитируя его "как это". Затем вы можете отфильтровать подомен(не то же самое, что url!) с site:опцией. В вашем случае вы бы построили строку поиска в таком формате:

"keyword" site:site1.com site:site2.com ...site:site307.com

...прокручивать список с помощью скрипта... Но не подумает ли Google, что вы бот?

Распространенный подход при выполнении нескольких поисков Google с помощью скрипта — вставка (возможно, случайных) задержек, чтобы не выглядеть подозрительно.


...загрузить эти 307 веб-страниц с помощью wget... Это займет много времени.

Если вам нужно время от времени проверять эти веб-сайты, вы можете рассмотреть возможность сохранения локальной копии веб-страниц и периодического их обновления; тогда локальный поиск должен быть очень быстрым. В противном случае Google будет быстрее, поскольку он работает с кэшированными результатами и не должен ждать подключения и загрузки. Но, если веб-сайт не упал или не испытывает серьезных проблем, все должно быть закончено примерно через 30 секунд. Предположим, у вас есть список URL-адресов в файле с именем list.txt, вам просто нужно будет запустить:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'для просмотра соответствующего содержимого или:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'для URL-адресов или: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'для отображения обоих.


Разве у Google нет встроенного метода поиска по списку URL-адресов?

Да, естьПользовательский поиск:

С помощью пользовательского поиска Google вы можете:
- Создавать пользовательские поисковые системы, которые выполняют поиск по указанному набору сайтов или страниц.

Связанный контент