웹페이지의 모든 소스 파일 다운로드

웹페이지의 모든 소스 파일 다운로드

데이터베이스 검색 엔진인 웹페이지의 소스 파일을 다운로드하고 싶습니다. 컬을 사용하면 기본 HTML 페이지만 다운로드할 수 있습니다. 또한 웹페이지에 링크되어 있고 메인 HTML 페이지에 언급된 모든 javascript 파일, css 파일, php 파일을 다운로드하고 싶습니다. 컬/wget 또는 다른 유틸리티를 사용하여 수행할 수 있습니까?

답변1

우선, 귀하는 웹사이트 운영자에게 이것이 해당 서비스의 사용이 허용되는지 확인해야 합니다. 그 후에는 다음과 같이 할 수 있습니다.

wget -pk example.com

-p페이지를 보기 위한 필수 구성 요소(Javascript, CSS 등)를 가져옵니다. -k페이지의 링크를 로컬 보기에 사용할 수 있는 링크로 변환합니다.

에서 man wget:

-p, --page-requisites

이 옵션을 사용하면 Wget이 특정 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하게 됩니다. 여기에는 인라인 이미지, 사운드, 참조된 스타일시트 등이 포함됩니다.

[...]

-k, --convert-links

다운로드가 완료된 후 문서의 링크를 로컬 보기에 적합하도록 변환하세요. 이는 표시되는 하이퍼링크뿐만 아니라 포함된 이미지, 스타일 시트 링크, HTML이 아닌 콘텐츠에 대한 하이퍼링크 등과 같은 외부 콘텐츠에 연결되는 문서의 모든 부분에 영향을 미칩니다.

관련 정보