도메인 폴더의 모든 파일을 다운로드해야 합니다 https://example.com/folder/subfolder
. 하위 폴더 파일에는 고유한 증분이 없으므로 파일 이름이 임의 문자열임을 의미합니다. wget이나 다른 방법을 사용하여 하위 폴더의 모든 파일을 다운로드하고 싶습니다. 자세한 내용을 알려주십시오.
나는 대답을 시도했다여기. index.html 파일만 다운로드합니다. --reject 옵션을 사용하여 해당 답변에서 다른 옵션을 시도했지만 아무것도 다운로드하지 않습니다.
답변1
내가 아는 한 다음과 wget
같은 링크에서만 작동합니다.
명시적으로 표준
href
속성을 갖습니다.주어진 HTML 문서(서버가 생성하는 문서)에 존재하므로 모든기술적으로다운로드 할 수 있는 파일이 항상 나열되지는 않을 수도 있습니다
wget
.
또한 원시 페이지 소스(예: 브라우저)를 살펴봐야 합니다. 페이지에서 JavaScript를 사용하는 경우 wget
JavaScript를 처리하지 않으므로 운이 좋지 않을 수 있습니다.
링크가 원시 HTML에 나열되어 있지만 표준 href
속성이 없는 경우에는 을 사용하지 않고 페이지에서 링크를 구문 분석할 수 있습니다 wget
. Windows PowerShell과 같은 것을 사용하여 고유한 스크립트를 작성해야 할 수도 있습니다.파이썬(아마도요청) 그리고아름다운수프.
드문 경우지만 링크가 JavaScript에 의해 완전히 생성된 경우에는 다음이 필요할 수도 있습니다.셀렌파일 링크를 처리하기 전에 완전히 렌더링된 페이지를 저장합니다. 파이썬에는셀레늄 모듈저는 개인적으로 다음의 독립 실행형 "Marmaduke" 빌드(zip 파일)에 대해 행운을 누렸습니다.Woolyss의 검색되지 않은 크롬브라우저 자동화를 위해.