
Ich habe eine Liste mit 307 Webseiten-URLs. Ist es möglich, Google (oder einer anderen Suchmaschine) anzuweisen, GENAU nur auf diesen 307 Webseiten nach einem bestimmten Schlüsselwort zu suchen?
Ich habe einige Ratschläge gelesen, die empfehlen, die Liste mit einem Skript oder Ähnlichem zu durchsuchen und für jedes Listenelement eine Google-Suche durchzuführen. Aber würde Google dann nicht denken, Sie seien ein Bot und die Suche blockieren?
Eine andere vorgeschlagene Methode bestand darin, diese 307 Webseiten mit wget (möglicherweise mithilfe eines Skripts) oder Ähnlichem herunterzuladen und dann eine lokale Suche in diesen heruntergeladenen Webseiten durchzuführen. Dies würde jedoch lange dauern, während eine Google-Suche fast augenblicklich erfolgen würde.
Verfügt Google nicht über eine integrierte Methode zur Suche in einer Liste von URLs?
Antwort1
Hier werden mehrere Fragen gestellt, ich werde versuchen, sie alle der Reihe nach zu beantworten.
Ist es möglich, Google (oder einer anderen Suchmaschine) anzuweisen, GENAU nur auf diesen 307 Websites nach einem bestimmten Schlüsselwort zu suchen?
Schauen Sie sich GooglesSuchoptionen. Sie können nach einem genauen Begriff suchen, indem Sie ihn "so" zitieren. Sie können dann filtern nachDomain(nicht dasselbe wie URL!) mit der site:
Option. In Ihrem Fall würden Sie die Suchzeichenfolge in diesem Format erstellen:
"keyword" site:site1.com site:site2.com ...site:site307.com
... die Liste mit einem Skript durchgehen ... Aber würde Google Sie nicht für einen Bot halten?
Ein gängiger Ansatz beim Ausführen mehrerer Google-Suchen über ein Skript besteht darin, (möglicherweise zufällige) Verzögerungen einzufügen, um nicht verdächtig zu wirken.
...diese 307 Webseiten mit wget herunterladen... Das würde lange dauern.
Wenn Sie diese Websites ab und zu überprüfen müssen, könnten Sie eine lokale Kopie der Webseiten speichern und diese regelmäßig aktualisieren; die lokale Suche sollte dann sehr schnell sein. Ansonsten ist Google schneller, da es mit zwischengespeicherten Ergebnissen arbeitet und nicht auf eine Verbindung und einen Download warten muss. Aber wenn eine Website nicht erreichbar ist oder ernsthafte Probleme hat, sollte alles in etwa 30 Sekunden wieder da sein. Angenommen, Sie haben eine Liste von URLs in einer Datei namens list.txt
, dann müssten Sie nur Folgendes ausführen:
cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'
um passende Inhalte anzuzeigen oder:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'
für URLs oder:
cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'
um beides anzuzeigen.
Verfügt Google nicht über eine integrierte Methode zur Suche in einer Liste von URLs?
Ja, es gibtBenutzerdefinierte Suche:
Mit der benutzerdefinierten Suche von Google können Sie:
- benutzerdefinierte Suchmaschinen erstellen, die eine bestimmte Sammlung von Websites oder Seiten durchsuchen