Wget을 사용하여 사이트 외부에서 특정 이름의 파일 다운로드

Wget을 사용하여 사이트 외부에서 특정 이름의 파일 다운로드

(반) 최상위 도메인과 모든 하위 폴더에서 특정 숫자 문자 조합이 나타나는지 살펴보는 가장 좋은 방법은 무엇입니까?

많은 이미지 목록이 포함된 폴더가 여러 개 있고 특정 숫자가 나타나는 폴더만 얻으면 됩니다. 즉: 282 또는 191

더 높은 해상도의 사진과 함께 썸네일을 다운로드하지 않도록 최소 크기를 필터링하는 방법을 알려주시면 보너스 포인트를 드립니다.

답변1

이렇게 하면 gif,png,jpg,jpeg를 찾는 사이트를 크롤링한 다음 모든 문자열에 대한 결과를 가져옵니다. 그런 다음 결과 목록은 wget에 의해 지정된 디렉터리로 검색됩니다. '/path/to/save/files'와 파일을 가져올 URL을 조정해야 합니다.

검색 매개변수를 정의하려면 최종 grep 문을 조정하세요. 그것은 다음과 같습니다:

grep "191\|282" --instead of-- grep "taco.gif\|whatever"

참고: 파일 유형을 추가하거나 제거하는 경우 -A 플래그 매개변수와 마지막 grep을 적절하게 수정하십시오.

wget -P /path/to/save/files/ $(wget --spider --execute robots=off \
--user-agent="Mozilla/5.0 Firefox4.0.1" --no-clobber --random-wait --force-html \
--recursive --no-directories -A gif,png,jpg,jpeg http://taco.com 2>&1 | grep -e \
'http\|Length\|broken link' | awk -F' ' '{ print $3 }' | sed '$!N;s/\n/ /' | grep \
'.gif\|.png\|.jpg\|.jpeg' | tr -d '()' | sed '/does$/d' | sort -k2 | \
grep "taco.gif\|whatever")

참고: 대부분의 관리자는 wget을 차단하고 크롤러를 차단하는 스크립트를 갖고 있으므로 많은 사이트에서는 작동하지 않지만 taco.com에서는 잘 작동합니다.

나는 그것을 시도하지 않았지만 이 일괄 다운로더 플러그인이 더 잘 작동할 수도 있습니다. https://chrome.google.com/webstore/detail/fatkun-batch-download-ima/nnjjahlikiabnchcpehcpkdeckfgnohf?hl=en

관련 정보