wget으로 파일 제한

wget으로 파일 제한

다음과 같은 메일링 리스트 아카이브를 다운로드하려고 합니다.

http://cryolist.org/archives/

특히, 저는 페이지가 있고 ".txt.gz"로 끝나는 해당 페이지에 링크된 모든 파일을 다운로드하고 싶습니다. wget을 제한하여 이를 수행할 수 있는 방법이 있습니까? 실패하면 대체 접근 방식이 있습니까?

참고자료

http://www.gnu.org/software/wget/manual/html_node/

답변1

이 시도:

wget \
    --재귀적 \
    --디렉토리 없음 \
    --부모 없음 \
    --레벨 1 \
    --.txt.gz 수락 \
    --로봇 실행=끄기 \
    http://lists.cryolist.org/pipermail/cryolist-cryolist.org/

가독성을 위해 긴 옵션을 사용합니다.

답변2

에서 wget --help:

-r,  --recursive          specify recursive download.
-l,  --level=NUMBER       maximum recursion depth (inf or 0 for infinite).
-A,  --accept=LIST        comma-separated list of accepted extensions.

파일은 iFrame에 연결되어 있다는 점을 명심하세요.lists.cryolist.org/pipermail/cryolist-cryolist.org, 다음 명령은 원하는 결과를 생성합니다.

wget -r -l1 -A "txt.gz" lists.cryolist.org/pipermail/cryolist-cryolist.org

스위치

  • 스위치 -r를 사용하면 연결된 다른 리소스를 다운로드할 수 있습니다.

  • 스위치 -l1는 이를 한 수준으로 제한합니다. 즉, page1에 링크 page2하거나 page2에 링크하는 경우 unwanted.txt.gz이 파일은 다운로드되지 않습니다.

답변3

bash 스크립트를 작성하고 모든 월을 배열에 저장하고 wget 명령의 올바른 위치에 삽입하여 반복합니다.

관련 정보