Pesquisar uma palavra-chave exatamente apenas em uma lista específica de páginas da web?

Pesquisar uma palavra-chave exatamente apenas em uma lista específica de páginas da web?

Eu tenho uma lista de 307 URLs de páginas da web. É possível dizer ao Google (ou outro mecanismo de busca) para pesquisar uma palavra-chave específica EXATAMENTE apenas nesses 307 sites?

Eu li alguns conselhos que dizem para percorrer a lista com um script ou similar e realizar uma pesquisa no Google para cada item da lista. Mas isso não faria o Google pensar que você é um bot e bloquear as buscas?

Outro método sugerido foi baixar essas 307 páginas da web com wget (talvez usando um script) ou similar e, em seguida, fazer uma pesquisa local nessas páginas baixadas. Mas isso levaria muito tempo, enquanto uma pesquisa no Google seria quase instantânea.

O Google não possui um método integrado para pesquisar em uma lista de URLs?

Responder1

Várias perguntas estão sendo feitas aqui, tentarei respondê-las na ordem correta.

É possível dizer ao Google (ou outro mecanismo de busca) para pesquisar uma palavra-chave específica EXATAMENTE apenas nesses 307 sites?

Dê uma olhada no GoogleOpções de busca. Você pode procurar um termo exato citando-o "assim". Você pode então filtrar pordomínio(não é o mesmo que url!) com a site:opção. No seu caso, você construiria a string de pesquisa neste formato:

"keyword" site:site1.com site:site2.com ...site:site307.com

...percorra a lista com um script... Mas o Google não pensaria que você é um bot?

Uma abordagem comum ao realizar várias pesquisas no Google por meio de um script é inserir atrasos (possivelmente aleatórios) para não parecer suspeito.


... baixe essas 307 páginas da web com o wget ... Isso levaria muito tempo.

Se você precisar verificar esses sites de vez em quando, considere salvar uma cópia local das páginas da Web e atualizá-las periodicamente; a pesquisa local deve então ser muito rápida. Caso contrário, o Google será mais rápido porque funciona com resultados em cache e não precisa esperar pela conexão e download. Mas, a menos que um site esteja fora do ar ou com problemas sérios, tudo deverá terminar em cerca de 30 segundos. Supondo que você tenha uma lista de URLs em um arquivo chamado list.txt, bastaria executar:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'para ver conteúdos correspondentes ou:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'para URLs ou: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'para mostrar ambos.


O Google não possui um método integrado para pesquisar em uma lista de URLs?

Sim, háPesquisa personalizada:

Com a Pesquisa personalizada do Google, você pode:
- Criar mecanismos de pesquisa personalizados que pesquisam em um conjunto específico de sites ou páginas

informação relacionada