데이터베이스 검색 엔진인 웹페이지의 소스 파일을 다운로드하고 싶습니다. 컬을 사용하면 기본 HTML 페이지만 다운로드할 수 있습니다. 또한 웹페이지에 링크되어 있고 메인 HTML 페이지에 언급된 모든 javascript 파일, css 파일, php 파일을 다운로드하고 싶습니다. 컬/wget 또는 다른 유틸리티를 사용하여 수행할 수 있습니까?
답변1
우선, 귀하는 웹사이트 운영자에게 이것이 해당 서비스의 사용이 허용되는지 확인해야 합니다. 그 후에는 다음과 같이 할 수 있습니다.
wget -pk example.com
-p
페이지를 보기 위한 필수 구성 요소(Javascript, CSS 등)를 가져옵니다. -k
페이지의 링크를 로컬 보기에 사용할 수 있는 링크로 변환합니다.
에서 man wget
:
-p, --page-requisites
이 옵션을 사용하면 Wget이 특정 HTML 페이지를 올바르게 표시하는 데 필요한 모든 파일을 다운로드하게 됩니다. 여기에는 인라인 이미지, 사운드, 참조된 스타일시트 등이 포함됩니다.
[...]
-k, --convert-links
다운로드가 완료된 후 문서의 링크를 로컬 보기에 적합하도록 변환하세요. 이는 표시되는 하이퍼링크뿐만 아니라 포함된 이미지, 스타일 시트 링크, HTML이 아닌 콘텐츠에 대한 하이퍼링크 등과 같은 외부 콘텐츠에 연결되는 문서의 모든 부분에 영향을 미칩니다.