O que exatamente significa 'lista negra' no wget?

Question

Você não está colocando nenhuma página da web na lista negra, é wgetisso que acontece.

Basicamente, qualquer página da Web baixada wgeté inserida em uma “lista negra” que supostamente evita o download da mesma página duas vezes.

O problema ocorre em páginas da Web que usam redirecionamento duplo, devolvendo a solicitação para alguma "verificação de segurança" e vice-versa. O Wget não espera ser redirecionado uma segunda vez para a mesma página, encontra-a na lista negra, ignorando assim o download dessa página.

Este problema foi mencionado pela primeira vez em 2012 no GNU WGET bug #37986: Redirecionamento para o mesmo URL evita recursão e foi implementada uma correção, que aparentemente não chegou à sua distribuição Linux ou foi perdida depois de tantos anos.

A única solução, além de encontrar outro downloader ou versão wget, é mencionada emesta resposta.

No entanto, se você deseja recompilar o wget manualmente, a solução para o seu problema pode ser trivial: basta adicionar essas 2 linhas no arquivo src/recur.c.
            status = retrieve_url (url_parsed, url, &file, &redirected, referer,
                                   &dt, false, i, true);
+
+         if (redirected)
+                 hash_table_remove (blacklist, url);

            if (html_allowed && file && status == RETROK
                && (dt & RETROKF) && (dt & TEXTHTML))
Isso removerá a página atual da lista negra sempre que você for redirecionado, corrigindo assim o seu problema.

Esteja avisado que isso pode desencadear loops infinitos em alguns casos, portanto, não é um patch pronto para envio.

Answer 1