Baixe um número arbitrário de arquivos usando wget de um diretório de auto-redirecionamento

Question 1

Quando quero baixar vários arquivos de um site que não facilita (ou dificulta ativamente), eu gero uma lista de URLs dos arquivos com algo assim:

lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt

Normalmente, edito o arquivo para viexcluir entradas que não quero baixar e, finalmente, busco todas elas com o wget:

wget --input-file=/tmp/pdflist.txt

Isso funciona bem para tarefas simples e geralmente funciona bem o suficiente para tarefas moderadamente difíceis... mas para tarefas difíceis que envolvem análise de HTML complicado e links a seguir (e talvez usando cookies), escreverei um perlweb-bot usando o libwww-perlmódulo ( também conhecido comoLWP).

Answer

Quando quero baixar vários arquivos de um site que não facilita (ou dificulta ativamente), eu gero uma lista de URLs dos arquivos com algo assim:

lynx -dump -listonly $URL | awk '/\.pdf/ {print $2}' > /tmp/pdflist.txt

Normalmente, edito o arquivo para viexcluir entradas que não quero baixar e, finalmente, busco todas elas com o wget:

wget --input-file=/tmp/pdflist.txt

Isso funciona bem para tarefas simples e geralmente funciona bem o suficiente para tarefas moderadamente difíceis... mas para tarefas difíceis que envolvem análise de HTML complicado e links a seguir (e talvez usando cookies), escreverei um perlweb-bot usando o libwww-perlmódulo ( também conhecido comoLWP).

Question 2

No site da sua universidade há uma página com links para todos os PDFs? Ou como você conhece a lista de nomes de arquivos PDF?

Nesse caso, você precisará escrever um script chamado scraper para obter links dessa página de maneira programática e, em seguida, percorrer automaticamente essa lista e baixá-los com o wget ou outra ferramenta. Eu sugeriria PHP ou Python para escrever o raspador. Você gerenciará facilmente a eventual paginação no site de origem. Se estiver usando PHP, você pode simplesmente baixar arquivos com

file_put_contents('destination_filename', file_get_contents('source_url');

Answer

No site da sua universidade há uma página com links para todos os PDFs? Ou como você conhece a lista de nomes de arquivos PDF?

Nesse caso, você precisará escrever um script chamado scraper para obter links dessa página de maneira programática e, em seguida, percorrer automaticamente essa lista e baixá-los com o wget ou outra ferramenta. Eu sugeriria PHP ou Python para escrever o raspador. Você gerenciará facilmente a eventual paginação no site de origem. Se estiver usando PHP, você pode simplesmente baixar arquivos com

file_put_contents('destination_filename', file_get_contents('source_url');

Baixe um número arbitrário de arquivos usando wget de um diretório de auto-redirecionamento

Responder1

Responder2

informação relacionada