
나는 wget을 사용하여 특정 PDF 파일을 검색하고 있습니다.http://www.aph.gov.au/
Hansard 파일(상공회의소 절차 기록)만 검색하고 싶습니다.
두 가지 시나리오:
- Hansard 성적표가 나열된 페이지가 있습니다.
http://www.aph.gov.au/Parliamentary_Business/Hansard/Hansreps_2011
이 페이지에서 요일/날짜 링크를 클릭하면 추가 파일에 대한 링크를 표시하는 데이터베이스 쿼리에 대한 응답을 검색합니다. 하루 전체 내용을 담은 'Download Current Hansard'에 표시된 파일만 검색하고 싶습니다('조각'은 검색하고 싶지 않습니다).
쿼리에 대한 응답을 클릭하고, 하루 종일 기록에 대한 URL을 수집하고, 파일로 패키징하고, wget -i를 사용하여 검색할 수 있습니다.
나는 wget을 사용하여 하루 종일 성적표만 가져오는 방법을 찾고 있습니다.
- 페이지에는 몇 년만 나열되어 있습니다. 그러나 데이터베이스로 이동하여 Hansard에 대한 고급 검색을 수행한 다음 화면 왼쪽 상단의 10년 범위를 클릭한 다음 연도를 클릭하면 해당 연도의 다른 날짜 목록이 생성됩니다. 다시 말하지만, 표시된 최상위 링크는 하루 전체 내용의 pdf를 생성하지 않지만 제목을 클릭하면 하루 전체 내용에 대한 링크를 보여주는 페이지가 표시됩니다.
wget을 사용하여 하루 전체 내용의 PDF만 검색하고 싶습니다.
어떤 조언이라도 감사히 받아들일 것입니다. '반수동' 방식으로 진행하고 있지만 속도가 느리고 노동집약적이다.
답변1
만으로는 이 작업을 수행할 수 없습니다 wget
.
날짜 링크가 포함된 첫 번째 페이지를 가져오는 스크립트를 만든 다음 페이지에서 올바른 URL을 구문 분석해야 합니다. 그런 다음 스크립트는 해당 URL의 페이지를 가져와서 PDF의 URL에 대해 구문 분석합니다.
이는 다음을 사용하는 사용자 정의 Python 스크립트를 사용하여 수행할 수 있습니다.아름다운 수프도서관.