때로는 웹사이트의 디렉토리 구조만 알고 싶지만 파일 자체는 중요하지 않습니다. 나는 단지 그들의 이름을 원합니다. 모든 항목이 빈 더미 파일인 거울과 같습니다.
물론 a를 wget -r
한 후 스크립트를 실행하여 모든 파일을 비우는 것은 잘 작동하지만 서버에도 대역폭에도 좋지 않기 때문에 낭비적인 느낌이 듭니다. 더 효율적이지만 덜 우아한 방법은 큰 파일에 도달할 때마다 프로세스를 수동으로 중지하고 다시 시작하거나 매우 짧은 시간 초과를 설정하는 것입니다. 적어도 다운로드해야 하는 데이터의 양은 크게 줄어듭니다.
내 질문은: wget에서 파일을 생성만 하고 해당 내용을 다운로드할 수 없도록 할 수 있습니까? 아니면 작업에 잘못된 도구를 사용하고 있습니까?
답변1
요청에 따라 답변 게시:
다음 옵션 을 사용하세요 --spider
.
wget -r -nv --spider http://example.com
그런 다음 출력에서 사이트 구조를 구문 분석할 수 있습니다. 이미지와 같은 링크를 포함할 가능성이 없는 파일은 다운로드되지 않습니다.