僅在特定的網頁清單上精確搜尋關鍵字?

僅在特定的網頁清單上精確搜尋關鍵字?

我有一個包含 307 個網頁 URL 的清單。是否可以告訴 Google(或其他搜尋引擎)僅在那些 307 網站上搜尋特定關鍵字?

我讀過一些建議,建議使用腳本或類似的方式循環瀏覽列表,並對每個列表項目執行 Google 搜尋。但這不會讓谷歌認為你是一個機器人並阻止搜尋嗎?

另一種建議的方法是使用 wget(可能使用腳本)或類似工具下載那些 307 網頁,然後在這些下載的網頁中進行本地搜尋。但這需要很長時間,而谷歌搜尋幾乎是即時的。

Google 沒有內建的方法來從 URL 清單中搜尋嗎?

答案1

這裡提出了幾個問題,我將嘗試以正確的順序回答所有問題。

是否可以告訴 Google(或其他搜尋引擎)僅在那些 307 網站上搜尋特定關鍵字?

看看Google的搜尋選項。您可以透過「像這樣」引用來尋找確切的術語。然後您可以按以下條件過濾領域(與 url 不同!)帶有site:選項。在您的情況下,您將以此格式建立搜尋字串:

"keyword" site:site1.com site:site2.com ...site:site307.com

....使用腳本循環瀏覽清單...但是 Google 不會認為您是機器人嗎?

透過腳本執行多次 Google 搜尋時的常見方法是插入(可能是隨機的)延遲,以免看起來可疑。


....使用 wget 下載那些 307 網頁...這需要很長時間。

如果您需要不時地查看這些網站,您可以考慮保存網頁的本機副本並定期刷新它們;本地搜尋應該會非常快。否則,Google將會更快,因為它使用快取的結果,而不必等待連接和下載。但是,除非網站出現故障或遇到嚴重問題,否則應該會在 30 秒左右的時間內結束。假設您在名為 的檔案中有一個 url 列表list.txt,您只需執行:

cat "list.txt" | parallel 'wget -q -O - {} | grep keyword'查看符合的內容或:
cat "list.txt" | parallel 'if wget -q -O - {} | grep -q keyword; then echo {}; fi'取得網址或: cat "list.txt" | parallel 'if wget -q -O - {} | grep keyword; then echo {}; fi'顯示兩者。


Google 沒有內建的方法來從 URL 清單中搜尋嗎?

是的,有自訂搜尋:

使用 Google 自訂搜索,您可以:
- 建立自訂搜尋引擎,在指定的網站或頁面集合中進行搜索

相關內容