
다음과 같은 메일링 리스트 아카이브를 다운로드하려고 합니다.
특히, 저는 페이지가 있고 ".txt.gz"로 끝나는 해당 페이지에 링크된 모든 파일을 다운로드하고 싶습니다. wget을 제한하여 이를 수행할 수 있는 방법이 있습니까? 실패하면 대체 접근 방식이 있습니까?
참고자료
답변1
이 시도:
wget \ --재귀적 \ --디렉토리 없음 \ --부모 없음 \ --레벨 1 \ --.txt.gz 수락 \ --로봇 실행=끄기 \ http://lists.cryolist.org/pipermail/cryolist-cryolist.org/
가독성을 위해 긴 옵션을 사용합니다.
답변2
에서 wget --help
:
-r, --recursive specify recursive download.
-l, --level=NUMBER maximum recursion depth (inf or 0 for infinite).
-A, --accept=LIST comma-separated list of accepted extensions.
파일은 iFrame에 연결되어 있다는 점을 명심하세요.lists.cryolist.org/pipermail/cryolist-cryolist.org, 다음 명령은 원하는 결과를 생성합니다.
wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org
스위치
스위치
-r
를 사용하면 연결된 다른 리소스를 다운로드할 수 있습니다.스위치
-l1
는 이를 한 수준으로 제한합니다. 즉,page1
에 링크page2
하거나page2
에 링크하는 경우unwanted.txt.gz
이 파일은 다운로드되지 않습니다.
답변3
bash 스크립트를 작성하고 모든 월을 배열에 저장하고 wget 명령의 올바른 위치에 삽입하여 반복합니다.