nginx: ¿Es este un robot malo?

nginx: ¿Es este un robot malo?

Tengo estas entradas en /var/log/nginx/access.log:

107.155.152.109 - - [22/Mar/2018:19:20:54 +0000] "GET / HTTP/1.0" 301 193 "-" "-"
162.216.152.56 - - [22/Mar/2018:19:21:40 +0000] "GET / HTTP/1.0" 301 193 "-" "-"
60.191.48.204 - - [22/Mar/2018:19:21:52 +0000] "GET / HTTP/1.0" 200 17582 "-" "-"

Me parecen sospechosos, pero mi conocimiento de esta área es limitado. ¿Qué está sucediendo? Incluso hay varios más de 107.155.xxx.xxx

2 de las direcciones aparecen en este sitio según lo informado:https://www.abuseipdb.com/check/. Son 162.216.152.56 y 60.191.48.204, aparentemente Jacksonville, Estados Unidos y China.

He configurado fail2ban como se describeaquíya que estoy en Digital Ocean con Ubuntu 14.04, pero no hay nada en el registro de fail2ban.

Respuesta1

Por lo que puedo decir no hay nada de qué preocuparse en estas líneas. No es raro que vea robots visitando su sitio web y rastreando directorios cada minuto. Eche un vistazo a "/etc/fail2ban/filter.d/botsearch-common.conf" y "/etc/fail2ban/filter.d/nginx-botsearch.conf" para ver cómo fail2ban intenta evitar que los badbots rastreen su sitio web. También puedes intentar bloquear los bots mediante el agente de usuario. Este podría ser un enfoque que podría usarse:https://gist.github.com/hans2103/733b8eef30e89c759335017863bd721d

Pero mi consejo es simplemente ignorar los bots, si tus configuraciones están limpias no tienes que preocuparte mucho por eso.

Respuesta2

Un simple GETde /sucederá todo el día todos los días, junto con mucho otro tráfico generado por bots. Casi no tiene sentido desperdiciar recursos haciendo algo al respecto si estás ejecutando un servidor web al que se puede acceder públicamente. Es literalmente para lo que está ahí. El hecho de que a algunos se les responda 301sugiere que está utilizando hosts virtuales y que la solicitud llegó sin un Hostencabezado válido, y que su configuración de Nginx es redirigirlos a su host virtual predeterminado.

La razón fail2banpor la que no está haciendo nada es porque nada del tráfico que ha visto ha sido detectado como malicioso. De forma predeterminada, estará atento a los escáneres de scripts, las fuerzas brutas de autenticación HTTP y otros patrones maliciosos.

Respuesta3

Simplemente puede agregar este código al comienzo de su código nginx antes de la etiqueta del servidor para ignorar los bots más comunes en su sitio web.

map $http_user_agent $limit_bots {
     default 0;
     ~*(google|bing|yandex|msnbot) 1;
     ~*(AltaVista|Googlebot|Slurp|BlackWidow|Bot|ChinaClaw|Custo|DISCo|Download|Demon|eCatch|EirGrabber|EmailSiphon|EmailWolf|SuperHTTP|Surfbot|WebWhacker) 1;
     ~*(Express|WebPictures|ExtractorPro|EyeNetIE|FlashGet|GetRight|GetWeb!|Go!Zilla|Go-Ahead-Got-It|GrabNet|Grafula|HMView|Go!Zilla|Go-Ahead-Got-It) 1;
     ~*(rafula|HMView|HTTrack|Stripper|Sucker|Indy|InterGET|Ninja|JetCar|Spider|larbin|LeechFTP|Downloader|tool|Navroad|NearSite|NetAnts|tAkeOut|WWWOFFLE) 1;
     ~*(GrabNet|NetSpider|Vampire|NetZIP|Octopus|Offline|PageGrabber|Foto|pavuk|pcBrowser|RealDownload|ReGet|SiteSnagger|SmartDownload|SuperBot|WebSpider) 1;
     ~*(Teleport|VoidEYE|Collector|WebAuto|WebCopier|WebFetch|WebGo|WebLeacher|WebReaper|WebSauger|eXtractor|Quester|WebStripper|WebZIP|Wget|Widow|Zeus) 1;
     ~*(Twengabot|htmlparser|libwww|Python|perl|urllib|scan|Curl|email|PycURL|Pyth|PyQ|WebCollector|WebCopy|webcraw) 1;
 }

Y esto a tu / ubicación

    location / {
            ...........
            if ($limit_bots = 1) {
                    return 403;
            }
    }

información relacionada