wget -- recuperação de arquivos pdf do banco de dados online

wget -- recuperação de arquivos pdf do banco de dados online

Estou usando o wget para recuperar arquivos PDF específicos dehttp://www.aph.gov.au/

Quero apenas recuperar os arquivos Hansard (transcrições dos procedimentos da Câmara).

Dois cenários:

  1. Há uma página onde as transcrições de Hansard estão listadas:

http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011

Clicar em um link de dia/data nesta página recupera uma resposta a uma consulta ao banco de dados que exibe links para outros arquivos. Quero apenas recuperar o arquivo indicado por 'Download Current Hansard', que é a transcrição do dia inteiro (não quero recuperar os 'fragmentos').

Posso clicar na resposta à consulta, coletar os URLs da transcrição do dia inteiro, empacotá-los em um arquivo e recuperá-los usando wget -i.

Estou procurando uma maneira de usar o wget para obter apenas as transcrições do dia inteiro.

  1. Apenas alguns anos estão listados na página. No entanto, ir ao banco de dados e realizar uma pesquisa avançada no Hansard, depois clicar nos intervalos de décadas no canto superior esquerdo da tela e, em seguida, em um ano, produz uma lista de diferentes dias daquele ano. Novamente, o link de nível superior exibido não produz o PDF da transcrição do dia inteiro, mas clicar no título resulta na exibição de uma página que mostra um link para a transcrição do dia inteiro.

Eu gostaria de usar o wget para recuperar apenas os PDFs da transcrição do dia inteiro.

Qualquer conselho seria gratamente recebido. Estou a fazer progressos com o método “semi-manual”, mas é lento e trabalhoso.

Responder1

Você não poderá fazer isso usando apenas wget.

Você precisará criar um script que irá capturar a primeira página com os links de data e, em seguida, analisar a página em busca do URL correto. Em seguida, o script pegaria a página naquele URL e a analisaria em busca do URL do PDF.

Isso pode ser feito usando um script python personalizado que usa obela sopabiblioteca.

informação relacionada