OSX를 사용하여 (바람직하게는) 웹사이트에서 데이터를 긁어내고/채굴하고/유혹하고, 간질이게 하려면 어떻게 해야 합니까?

OSX를 사용하여 (바람직하게는) 웹사이트에서 데이터를 긁어내고/채굴하고/유혹하고, 간질이게 하려면 어떻게 해야 합니까?

웹사이트에서 데이터를 '가져오려고' 합니다.

프로그램을 URL로 지정하고 해당 도메인의 모든 것을 가져오는 방법이 있습니까? OSX 10.5에서 이 문제를 어떻게 해결해야 합니까? 정말로 필요한 경우 최후의 수단으로 우분투나 Windows 상자를 사용할 수 있습니다.

답변1

wget다음 명령을 사용할 수 있습니다 .Mac OS X용 다운로드 가능대부분의 Linux 배포판에는 웹사이트, 이미지, CSS, JavaScript, 비디오, Flash 파일 등의 전체 콘텐츠를 다운로드할 수 있는 기능이 포함되어 있습니다.

일단 가지고 나면 터미널을여십시오. 아마도 다음과 같이 호출하고 싶을 것입니다.

wget -r -l0 -k http://www.example.com/

그러면 다운로드됩니다모든 것링크를 통해 http://www.example.com/액세스할 수 있습니다. 이 -r옵션은 재귀 다운로드를 활성화하므로 홈 페이지보다 더 많은 것을 다운로드합니다. 이 -l옵션은 링크를 찾고 다운로드할 페이지 깊이를 설정하며, 0제가 한 것처럼 설정하면 최대한 멀리 들어가도록 설정됩니다. 웹사이트가 많이 다운로드할 수 있는 동적 페이지 생성을 사용하는 경우 동일하거나 매우 유사한 콘텐츠를 가리키는 URL이 많을 수 있다는 점에 유의하세요. 이 -k명령은 선택 사항이며 wget모든 링크, 이미지 태그 등을 로컬 컴퓨터의 올바른 위치로 변환하여 컴퓨터의 웹 브라우저에서 볼 수 있고 올바르게 작동합니다.

다음 위치에서만 파일을 다운로드합니다.www.example.com, 다른 도메인이 아닙니다. 다른 도메인으로 이동해야 하는 경우 스위치를 사용하여 -H해당 기능을 켠 다음 옵션 -D스위치를 사용하여 다운로드할 다른 도메인을 정의합니다(예: -D comments.example.com,beta.example.com). 조심하세요. 스위치를 끄고 /infinite 로 -D설정하면 전체 World Wide Web을 다운로드할 수 있습니다!-l0

도움이 될 수 있는 또 다른 스위치는 -N로컬 파일의 타임스탬프를 서버의 HTTP 헤더에서 제공하는 시간으로 설정 Last-Modified하고 후속 다운로드에서 변경되지 않은 파일을 다운로드하지 않는 스위치입니다.

자세한 내용은 상담하세요문서wget.

관련 정보