
Я использую wget для извлечения определенных файлов PDF изhttp://www.aph.gov.au/
Я хочу получить только файлы Хансарда (стенограммы заседаний Палаты).
Два сценария:
- Вот страница, где перечислены стенограммы Хансарда:
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
Нажатие на ссылку день/дата на этой странице извлекает ответ на запрос базы данных, который отображает ссылки на дополнительные файлы. Я хочу извлечь только файл, указанный в «Загрузить текущий Hansard», который является полной стенограммой дня (я не хочу извлекать «фрагменты»).
Я могу щелкнуть на ответе на запрос, собрать URL-адреса для расшифровки всего дня, упаковать их в файл и извлечь с помощью wget -i.
Я ищу способ использовать wget для получения только стенограмм за весь день.
- На странице перечислены только некоторые годы. Однако, если перейти в базу данных и выполнить расширенный поиск по Hansard, а затем щелкнуть по диапазонам десятилетий в верхнем левом углу экрана, а затем по году, то будет получен список разных дней в этом году. Опять же, отображаемая ссылка верхнего уровня не выдает PDF-файл всей транскрипции дня, но нажатие на заголовок приводит к отображению страницы, которая показывает ссылку на всю транскрипцию дня.
Я хотел бы использовать wget для получения только PDF-файлов стенограммы всего дня.
Буду благодарен за любые советы. Я делаю успехи с «полуручным» методом, но он медленный и трудоемкий.
решение1
Вы не сможете сделать это, используя только wget
.
Вам нужно будет создать скрипт, который будет захватывать первую страницу со ссылками на дату, а затем анализировать страницу на предмет правильного URL. Затем скрипт будет захватывать страницу по этому URL и анализировать ее на предмет URL к PDF.
Это можно сделать с помощью специального скрипта Python, который используеткрасивыйсупбиблиотека.