원하는 파일을 저장하는 데 문제가 있습니다. 제외 디렉터리가 작동하지 않는 것 같습니다.

원하는 파일을 저장하는 데 문제가 있습니다. 제외 디렉터리가 작동하지 않는 것 같습니다.

에너지 및 기후 변화부에서 £500가 넘는 모든 정부 지출을 다운로드하고 싶습니다. .xls 및 .xlsx 파일은 한 달에 한 번 생성됩니다. 다음과 같은 위치에 저장됩니다.

https://www.gov.uk/government/uploads/system/uploads/attachment_data/file/209425/20130627_April_2013_PUS_.xls

여기서 파일 뒤의 번호는 고유 번호이고 파일 이름에는 명명 일관성이 없습니다. 이 파일은 다음 형식의 개별 월별 페이지에서 연결됩니다.

https://www.gov.uk/government/publications/departmental-spend-over-500-april-2013

이는 다음과 같은 색인 페이지에서 연결됩니다.

https://www.gov.uk/government/collections/departmental-spend-over-500

이 명령은 작동합니다:

wget -r --force-html -e robots=off -A xls,xlsx,"" -l 2
https://www.gov.uk/government/collections/departmental-spend-over-500

그러나 .xls 및 .xlsx 파일뿐만 아니라 .xls 파일 이외의 ~100MB의 text/html 파일을 다운로드하는 .gov.uk 사이트의 전체 디렉토리(시작한 곳에서 두 개의 링크까지)를 얻습니다. 그건 좀 과한 것 같아요. 그래서 내 질문은 다음과 같습니다

위 디렉토리의 소스만 wget로 만들거나 원하지 않는 명백한 디렉토리를 제외하려면 어떻게 해야 합니까?

나는 명백한 -I 및 -X, -D 등의 명령을 시도했지만 운이 없었습니다. NB -A 스위치에 ""와 xls 파일을 포함해야 했습니다. 그렇지 않으면 링크하는 html 파일이 무시됩니다...

어떤 조언이라도 감사히 받았습니다! 이것은 Mac에 있습니다.

답변1

하아! 마침내 해결되었습니다. 포함에는 모든 디렉터리의 전체 경로를 포함해야 하지만 URL은 포함하지 않아야 합니다.

wget -r -A xls,xlsx,"" -l 2 -I /government/uploads/system/uploads/attachment_data/file/,/government/publications/,/government/collections/departmental-spend-over-500 https://www.gov.uk/government/collections/departmental-spend-over-500

분명하지 않습니다 - 어쨌든 나에게는 그렇지 않습니다 ...

(코드 상자에서 오른쪽으로 스크롤하여 모두 확인하세요)

편집: 실제로 더 좋습니다. 여기서 분할했습니다.

wget -r -A xls,xlsx,"" -l 2 
-I /government/uploads/system/uploads/attachment_data/file/,
   /government/publications/,
   /government/collections/departmental-spend-over-500
https://www.gov.uk/government/collections/departmental-spend-over-500

라인 1:재귀적, 확장자가 없는 xls, xlsx 및 파일(이 경우 html 파일...)을 포함하고 5행에 지정된 위치에서 두 수준을 수행합니다.

2-4행:최상위 URL의 경로/디렉토리를 포함합니다(즉, 다른 모든 항목 제외).

5행:어디서부터 시작해야 할까?

관련 정보