Tengo un sitio web de comercio electrónico, alojado en AWS.
Entiendo que existen herramientas que previenen/bloquean los robots de raspado. ¿Pero es posible detectar quién está raspando mi sitio web? Quiero decir, ¿podría detectar que las solicitudes provienen de un bot, luego encontrar la IP del bot y usarla para identificar el servidor que está rastreando mi sitio web?
Respuesta1
El honorable bot/webscraper se identificará con un encabezado User-Agent (Y respetará un archivo robots.txt si desea dirigir su comportamiento), lo que facilitará su identificación.
Un bot malicioso (que no solicita ni respeta su archivo robots.txt) aún puede identificarse con un encabezado de agente de usuario que le permite identificarlo y luego puede crear y aplicar políticas del lado del servidor para intentar controlar su comportamiento. Cuando se utiliza una cadena de User-Agent que es idéntica a un navegador web real, no se puede utilizar para identificarlo. Entonces puede resultar bastante difícil distinguir las solicitudes de un bot de las realizadas por usuarios reales.
Una vez que haya determinado qué solicitudes provienen de un bot, sus registros también contendrán la dirección IP que fue el origen de la solicitud.
Cuando no pueda identificar fácilmente las solicitudes que provienen de un bot, tenga en cuenta que normalmente hace público su contenido web y desea que se encuentre y se acceda a él. Si su servidor no puede manejar las solicitudes provenientes de un bot, tendrá problemas mayores, ya que tampoco podrá manejar una cantidad razonable de visitantes reales simultáneos.