如何辨識誰在抓取我的網站？

Question

值得尊敬的機器人/網路爬蟲將使用 User-Agent 標頭來標識自己（如果您想指導其行為，請尊重 robots.txt），使其易於識別。

惡意機器人（不要求和尊重您的 robots.txt）仍可能使用用戶代理標頭來標識自己，從而允許您識別它，然後您可以創建並強制執行伺服器端策略以嘗試控制其行為。當使用與真實網頁瀏覽器相同的使用者代理字串時，您無法使用它來識別它。那麼可能很難區分來自機器人的請求和真實使用者發出的請求。

一旦確定哪些請求來自機器人，您的日誌還將包含作為請求來源的 IP 位址。

當您無法輕鬆識別來自機器人的請求時，請記住，您通常會公開您的 Web 內容，並且希望它被發現和存取。如果您的伺服器無法處理來自機器人的請求，您將遇到更大的問題，因為它也無法處理合理數量的並發真實訪客。

Answer 1

值得尊敬的機器人/網路爬蟲將使用 User-Agent 標頭來標識自己（如果您想指導其行為，請尊重 robots.txt），使其易於識別。

惡意機器人（不要求和尊重您的 robots.txt）仍可能使用用戶代理標頭來標識自己，從而允許您識別它，然後您可以創建並強制執行伺服器端策略以嘗試控制其行為。當使用與真實網頁瀏覽器相同的使用者代理字串時，您無法使用它來識別它。那麼可能很難區分來自機器人的請求和真實使用者發出的請求。

一旦確定哪些請求來自機器人，您的日誌還將包含作為請求來源的 IP 位址。

當您無法輕鬆識別來自機器人的請求時，請記住，您通常會公開您的 Web 內容，並且希望它被發現和存取。如果您的伺服器無法處理來自機器人的請求，您將遇到更大的問題，因為它也無法處理合理數量的並發真實訪客。

相關內容