¿Qué significa exactamente "lista negra" en wget?

Question

No estás poniendo en lista negra ninguna página web, es wgetesa la que lo hace.

Básicamente, cualquier página web que se descargue wgetse ingresa en una "lista negra" que se supone evita descargar la misma página dos veces.

El problema ocurre en páginas web que utilizan doble redirección, rebotando la solicitud a algún "control de seguridad" y viceversa. Wget no espera ser redirigido por segunda vez a la misma página, la encuentra en la lista negra y se salta la descarga de esa página.

Este problema se mencionó por primera vez en 2012 en GNU WGET Error n.° 37986: la redirección a la misma URL evita la recursividad y se implementó un arreglo, que al parecer no llegó a su distribución Linux o se perdió después de tantos años.

La única solución, además de encontrar otro descargador o versión de wget, se menciona enesta respuesta.

Sin embargo, si está dispuesto a volver a compilar wget manualmente, la solución a su problema puede ser trivial: simplemente agregue estas 2 líneas en el archivo src/recur.c.
            status = retrieve_url (url_parsed, url, &file, &redirected, referer,
                                   &dt, false, i, true);
+
+         if (redirected)
+                 hash_table_remove (blacklist, url);

            if (html_allowed && file && status == RETROK
                && (dt & RETROKF) && (dt & TEXTHTML))
Eso eliminará la página actual de la lista negra cada vez que sea redirigido, solucionando así su problema.

Tenga en cuenta que podría desencadenar bucles infinitos en algunos casos, por lo que no es un parche listo para enviar.

Answer 1