如何辨識誰在抓取我的網站?

如何辨識誰在抓取我的網站?

我有一個電子商務網站,託管在 AWS 上。

我知道有一些工具可以防止/阻止抓取機器人。但是有可能偵測到誰在抓取我的網站嗎?我的意思是,我是否能夠檢測到來自機器人的請求,然後找到機器人的 IP 並使用它來識別正在抓取我的網站的伺服器?

答案1

值得尊敬的機器人/網路爬蟲將使用 User-Agent 標頭來標識自己(如果您想指導其行為,請尊重 robots.txt),使其易於識別。

惡意機器人(不要求和尊重您的 robots.txt)仍可能使用用戶代理標頭來標識自己,從而允許您識別它,然後您可以創建並強制執行伺服器端策略以嘗試控制其行為。當使用與真實網頁瀏覽器相同的使用者代理字串時,您無法使用它來識別它。那麼可能很難區分來自機器人的請求和真實使用者發出的請求。

一旦確定哪些請求來自機器人,您的日誌還將包含作為請求來源的 IP 位址。

當您無法輕鬆識別來自機器人的請求時,請記住,您通常會公開您的 Web 內容,並且希望它被發現和存取。如果您的伺服器無法處理來自機器人的請求,您將遇到更大的問題,因為它也無法處理合理數量的並發真實訪客。

相關內容