Ich habe eine E-Commerce-Website, die auf AWS gehostet wird.
Mir ist bewusst, dass es Tools gibt, die Scraping-Bots verhindern/blockieren. Aber ist es möglich, herauszufinden, wer meine Website scrapt? Ich meine, könnte ich erkennen, dass die Anfragen von einem Bot kommen, dann die IP des Bots herausfinden und sie verwenden, um den Server zu identifizieren, der meine Website scrapt?
Antwort1
Der ehrenwerte Bot/Webscraper identifiziert sich mit einem User-Agent-Header (UND respektiert eine robots.txt-Datei, wenn Sie sein Verhalten steuern möchten), sodass er leicht zu identifizieren ist.
Ein bösartiger Bot (der Ihre robots.txt-Datei nicht anfordert und nicht beachtet) kann sich dennoch mit einem User-Agent-Header identifizieren, der es Ihnen ermöglicht, ihn zu identifizieren. Anschließend können Sie serverseitige Richtlinien erstellen und durchsetzen, um zu versuchen, sein Verhalten zu kontrollieren. Wenn Sie eine User-Agent-Zeichenfolge verwenden, die mit der eines echten Webbrowsers identisch ist, können Sie diese nicht zur Identifizierung verwenden. Dann kann es ziemlich schwierig sein, Anfragen eines Bots von denen echter Benutzer zu unterscheiden.
Sobald Sie ermittelt haben, welche Anfragen von einem Bot stammen, enthalten Ihre Protokolle auch die IP-Adresse, von der die Anfrage stammt.
Wenn Sie Anfragen nicht ohne weiteres als solche von einem Bot identifizieren können, bedenken Sie, dass Sie Ihre Webinhalte normalerweise öffentlich machen und möchten, dass sie gefunden und abgerufen werden. Wenn Ihr Server die Anfragen eines Bots nicht verarbeiten kann, haben Sie größere Probleme, da er auch nicht in der Lage sein wird, eine angemessene Anzahl gleichzeitiger realer Besucher zu verarbeiten.