Wie kann ich feststellen, wer meine Website scrapt?

Question

Der ehrenwerte Bot/Webscraper identifiziert sich mit einem User-Agent-Header (UND respektiert eine robots.txt-Datei, wenn Sie sein Verhalten steuern möchten), sodass er leicht zu identifizieren ist.

Ein bösartiger Bot (der Ihre robots.txt-Datei nicht anfordert und nicht beachtet) kann sich dennoch mit einem User-Agent-Header identifizieren, der es Ihnen ermöglicht, ihn zu identifizieren. Anschließend können Sie serverseitige Richtlinien erstellen und durchsetzen, um zu versuchen, sein Verhalten zu kontrollieren. Wenn Sie eine User-Agent-Zeichenfolge verwenden, die mit der eines echten Webbrowsers identisch ist, können Sie diese nicht zur Identifizierung verwenden. Dann kann es ziemlich schwierig sein, Anfragen eines Bots von denen echter Benutzer zu unterscheiden.

Sobald Sie ermittelt haben, welche Anfragen von einem Bot stammen, enthalten Ihre Protokolle auch die IP-Adresse, von der die Anfrage stammt.

Wenn Sie Anfragen nicht ohne weiteres als solche von einem Bot identifizieren können, bedenken Sie, dass Sie Ihre Webinhalte normalerweise öffentlich machen und möchten, dass sie gefunden und abgerufen werden. Wenn Ihr Server die Anfragen eines Bots nicht verarbeiten kann, haben Sie größere Probleme, da er auch nicht in der Lage sein wird, eine angemessene Anzahl gleichzeitiger realer Besucher zu verarbeiten.

Answer 1

Der ehrenwerte Bot/Webscraper identifiziert sich mit einem User-Agent-Header (UND respektiert eine robots.txt-Datei, wenn Sie sein Verhalten steuern möchten), sodass er leicht zu identifizieren ist.

Ein bösartiger Bot (der Ihre robots.txt-Datei nicht anfordert und nicht beachtet) kann sich dennoch mit einem User-Agent-Header identifizieren, der es Ihnen ermöglicht, ihn zu identifizieren. Anschließend können Sie serverseitige Richtlinien erstellen und durchsetzen, um zu versuchen, sein Verhalten zu kontrollieren. Wenn Sie eine User-Agent-Zeichenfolge verwenden, die mit der eines echten Webbrowsers identisch ist, können Sie diese nicht zur Identifizierung verwenden. Dann kann es ziemlich schwierig sein, Anfragen eines Bots von denen echter Benutzer zu unterscheiden.

Sobald Sie ermittelt haben, welche Anfragen von einem Bot stammen, enthalten Ihre Protokolle auch die IP-Adresse, von der die Anfrage stammt.

Wenn Sie Anfragen nicht ohne weiteres als solche von einem Bot identifizieren können, bedenken Sie, dass Sie Ihre Webinhalte normalerweise öffentlich machen und möchten, dass sie gefunden und abgerufen werden. Wenn Ihr Server die Anfragen eines Bots nicht verarbeiten kann, haben Sie größere Probleme, da er auch nicht in der Lage sein wird, eine angemessene Anzahl gleichzeitiger realer Besucher zu verarbeiten.

Wie kann ich feststellen, wer meine Website scrapt?

Antwort1

verwandte Informationen