¿Cómo identificar quién está raspando mi sitio web?

Question

El honorable bot/webscraper se identificará con un encabezado User-Agent (Y respetará un archivo robots.txt si desea dirigir su comportamiento), lo que facilitará su identificación.

Un bot malicioso (que no solicita ni respeta su archivo robots.txt) aún puede identificarse con un encabezado de agente de usuario que le permite identificarlo y luego puede crear y aplicar políticas del lado del servidor para intentar controlar su comportamiento. Cuando se utiliza una cadena de User-Agent que es idéntica a un navegador web real, no se puede utilizar para identificarlo. Entonces puede resultar bastante difícil distinguir las solicitudes de un bot de las realizadas por usuarios reales.

Una vez que haya determinado qué solicitudes provienen de un bot, sus registros también contendrán la dirección IP que fue el origen de la solicitud.

Cuando no pueda identificar fácilmente las solicitudes que provienen de un bot, tenga en cuenta que normalmente hace público su contenido web y desea que se encuentre y se acceda a él. Si su servidor no puede manejar las solicitudes provenientes de un bot, tendrá problemas mayores, ya que tampoco podrá manejar una cantidad razonable de visitantes reales simultáneos.

Answer 1

El honorable bot/webscraper se identificará con un encabezado User-Agent (Y respetará un archivo robots.txt si desea dirigir su comportamiento), lo que facilitará su identificación.

Un bot malicioso (que no solicita ni respeta su archivo robots.txt) aún puede identificarse con un encabezado de agente de usuario que le permite identificarlo y luego puede crear y aplicar políticas del lado del servidor para intentar controlar su comportamiento. Cuando se utiliza una cadena de User-Agent que es idéntica a un navegador web real, no se puede utilizar para identificarlo. Entonces puede resultar bastante difícil distinguir las solicitudes de un bot de las realizadas por usuarios reales.

Una vez que haya determinado qué solicitudes provienen de un bot, sus registros también contendrán la dirección IP que fue el origen de la solicitud.

Cuando no pueda identificar fácilmente las solicitudes que provienen de un bot, tenga en cuenta que normalmente hace público su contenido web y desea que se encuentre y se acceda a él. Si su servidor no puede manejar las solicitudes provenientes de un bot, tendrá problemas mayores, ya que tampoco podrá manejar una cantidad razonable de visitantes reales simultáneos.

¿Cómo identificar quién está raspando mi sitio web?

Respuesta1

información relacionada