wget -- извлечение файлов PDF из онлайн-базы данных

wget -- извлечение файлов PDF из онлайн-базы данных

Я использую wget для извлечения определенных файлов PDF изhttp://www.aph.gov.au/

Я хочу получить только файлы Хансарда (стенограммы заседаний Палаты).

Два сценария:

  1. Вот страница, где перечислены стенограммы Хансарда:

http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011

Нажатие на ссылку день/дата на этой странице извлекает ответ на запрос базы данных, который отображает ссылки на дополнительные файлы. Я хочу извлечь только файл, указанный в «Загрузить текущий Hansard», который является полной стенограммой дня (я не хочу извлекать «фрагменты»).

Я могу щелкнуть на ответе на запрос, собрать URL-адреса для расшифровки всего дня, упаковать их в файл и извлечь с помощью wget -i.

Я ищу способ использовать wget для получения только стенограмм за весь день.

  1. На странице перечислены только некоторые годы. Однако, если перейти в базу данных и выполнить расширенный поиск по Hansard, а затем щелкнуть по диапазонам десятилетий в верхнем левом углу экрана, а затем по году, то будет получен список разных дней в этом году. Опять же, отображаемая ссылка верхнего уровня не выдает PDF-файл всей транскрипции дня, но нажатие на заголовок приводит к отображению страницы, которая показывает ссылку на всю транскрипцию дня.

Я хотел бы использовать wget для получения только PDF-файлов стенограммы всего дня.

Буду благодарен за любые советы. Я делаю успехи с «полуручным» методом, но он медленный и трудоемкий.

решение1

Вы не сможете сделать это, используя только wget.

Вам нужно будет создать скрипт, который будет захватывать первую страницу со ссылками на дату, а затем анализировать страницу на предмет правильного URL. Затем скрипт будет захватывать страницу по этому URL и анализировать ее на предмет URL к PDF.

Это можно сделать с помощью специального скрипта Python, который используеткрасивыйсупбиблиотека.

Связанный контент