웹사이트에 있는 모든 웹페이지의 소스 코드를 검색하여 단일 텍스트 파일에 저장하는 방법이 있습니까? Internet Explorer에서 페이지를 개별적으로 검색한 것처럼 적절한 CRFL 문자를 사용합니까? Wget을 사용해 보았지만 올바른 옵션 조합을 찾을 수 없는 것 같습니다.
답변1
웹서버가 올바르게 구성되었다면 불가능합니다. 웹사이트의 소스코드를 다운로드할 수 있다면 해당 웹사이트의 데이터베이스 인증 내역 등 귀중한 데이터를 검색할 수 있기 때문입니다.
그러나 다음을 다운로드할 수 있습니다.렌더링된 HTML인터넷 브라우저에 표시되는 웹페이지의 내용은 다음과 같습니다 wget
.
wget -E -H -k -K -p URLHERE
그러나 일부 웹 서버는 wget
로봇(웹 페이지에서 데이터를 스크랩하고 저장하는 프로그램)으로 취급할 수 있으며, 이 경우 명령 -e robots=off
에 스위치를 사용할 수 있습니다 wget
.