¿Buscar una palabra clave exactamente solo en una lista específica de páginas web?

¿Buscar una palabra clave exactamente solo en una lista específica de páginas web?

Tengo una lista de 307 URL de páginas web. ¿Es posible decirle a Google (u otro motor de búsqueda) que busque una palabra clave específica EXACTAMENTE solo en esos 307 sitios web?

He leído algunos consejos que indican recorrer la lista con un script o similar y realizar una búsqueda en Google para cada elemento de la lista. ¿Pero esto no haría que Google pensara que eres un robot y bloqueara las búsquedas?

Otro método sugerido fue descargar esas páginas web 307 con wget (quizás usando un script) o similar y luego hacer una búsqueda local en esas páginas web descargadas. Pero eso llevaría mucho tiempo y una búsqueda en Google sería casi instantánea.

¿No tiene Google un método integrado para buscar a partir de una lista de URL?

Respuesta1

Aquí se hacen varias preguntas; intentaré responderlas todas en el orden adecuado.

¿Es posible decirle a Google (u otro motor de búsqueda) que busque una palabra clave específica EXACTAMENTE solo en esos 307 sitios web?

Echa un vistazo a googleOpciones de búsqueda. Puedes buscar un término exacto citándolo "así". Luego puedes filtrar pordominio(¡no es lo mismo que URL!) con la site:opción. En su caso, crearía la cadena de búsqueda en este formato:

"keyword" site:site1.com site:site2.com ...site:site307.com

...recorre la lista con un script... ¿Pero no pensaría Google que eres un robot?

Un enfoque común al realizar múltiples búsquedas en Google a través de un script es insertar retrasos (posiblemente aleatorios) para no parecer sospechoso.


...descargar esas páginas web 307 con wget... Eso llevaría mucho tiempo.

Si necesita revisar esos sitios web de vez en cuando, podría considerar guardar una copia local de las páginas web y actualizarlas periódicamente; La búsqueda local debería ser entonces muy rápida. De lo contrario, Google será más rápido porque funciona con resultados almacenados en caché y no tiene que esperar a conectarse y descargarse. Pero, a menos que un sitio web no funcione o experimente problemas graves, todo debería finalizar en aproximadamente 30 segundos. Suponiendo que tienes una lista de URL en un archivo llamado list.txt, solo tendrías que ejecutar:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'para ver contenidos coincidentes o:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'para URL o: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'para mostrar ambos.


¿No tiene Google un método integrado para buscar a partir de una lista de URL?

Si hayBúsqueda personalizada:

Con la búsqueda personalizada de Google, puede:
- Crear motores de búsqueda personalizados que realicen búsquedas en una colección específica de sitios o páginas.

información relacionada