다음과 같이 전체 사이트를 다운로드하려고 합니다 wget
.
wget -r http://whatever/
wget -m http://whatever/
하지만 이미지가 아닌 텍스트가 있는 페이지만 다운로드됩니다. 텍스트와 이미지가 포함된 페이지를 어떻게 다운로드할 수 있나요? 내가 여기서 무엇을 놓치고 있는 걸까요?
답변1
wget
사용해야 하는 명령은 아래 설명처럼 훨씬 더 깁니다 . 따라서 와 같은 파일에 커밋하고 wholesite.sh
실행 파일로 만든 다음 실행할 수 있습니다. 이미지, js, css 등을 포함한 사이트 자산의 하위 디렉터리와 URL 디렉터리가 생성됩니다.
wget \
--recursive \
--level 5 \
--no-clobber \
--page-requisites \
--adjust-extension \
--span-hosts \
--convert-links \
--restrict-file-names=windows \
--domains yoursite.com \
--no-parent \
yoursite.com
설명
--recursive
이는 검색하려는 사이트 자산의 하위 디렉터리 수를 지정합니다(이미지와 같은 자산은 종종 사이트의 하위 디렉터리에 보관되므로). 자산 검색을 위한 기본 최대 깊이는 5개의 하위 디렉터리입니다. level
바로 아래 플래그를 사용하여 이를 수정할 수 있습니다 .
--level 5
자산에 대한 5개의 하위 디렉터리를 검색합니다. 대상 사이트가 각각 더 크거나 작은 경우 이를 늘리거나 줄이는 것이 좋습니다.
--no-clobber
기존 파일을 덮어쓰지 마십시오.
--page-requisites
wget
다음을 포함하는 특정 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드합니다 .이미지, CSS, JS 등
--adjust-extension
.html, .css 및 기타 자산에 대한 적절한 파일 확장자를 유지합니다.
--span-hosts
오프사이트의 필수 자산도 포함합니다.
--convert-links
로컬 컴퓨터의 하위 디렉터리 내에서 파일로 작동하도록 사이트 링크를 업데이트합니다(로컬에서 보기 위해).
--restrict-file-names=windows
Windows 시스템에서 이 명령을 사용하는 경우 Windows에서도 작동하도록 파일 이름을 수정하십시오.
--domains yoursite.com
이 도메인 외부의 링크를 따라가지 마세요.
--no-parent
전달한 디렉토리 외부의 링크를 따르지 마십시오.
yoursite.com
# 다운로드할 URL