이 사이트를 미러링할 때 wget이 모든 페이지를 가져오지 못하는 이유는 무엇입니까?

Question 1

Javascript는 브라우저에 의해 렌더링됩니다. wget콘텐츠를 가져오는 등 해야 할 일을 정확히 수행합니다. 브라우저는 처음에 동일한 작업을 수행합니다. 그들은 당신이 위에 게시한 것과 똑같은 내용을 얻습니다. 그런 다음 부품을 렌더링 Javascript하고 링크를 구축합니다. wget그렇게 할 수 없습니다. 따라서 아니요. wget만 사용하면 동적으로 생성된 링크를 얻을 수 없습니다. 다음과 같은 것을 시도해 볼 수 있습니다.PhantomJS그렇지만.

Answer

Javascript는 브라우저에 의해 렌더링됩니다. wget콘텐츠를 가져오는 등 해야 할 일을 정확히 수행합니다. 브라우저는 처음에 동일한 작업을 수행합니다. 그들은 당신이 위에 게시한 것과 똑같은 내용을 얻습니다. 그런 다음 부품을 렌더링 Javascript하고 링크를 구축합니다. wget그렇게 할 수 없습니다. 따라서 아니요. wget만 사용하면 동적으로 생성된 링크를 얻을 수 없습니다. 다음과 같은 것을 시도해 볼 수 있습니다.PhantomJS그렇지만.

Question 2

이미 언급했듯이 wget은 클라이언트 측 JavaScript 코드를 사용하는 페이지를 생성할 수 없습니다. Python 프로그래밍의 기본을 알고 있다면 Python 라이브러리를 사용하는 것이 좋습니다.긁힌웹사이트 크롤링을 위해셀렌, 외부 브라우저를 사용하여 동적 페이지를 생성할 수 있습니다. 아주 적은 양의 Python 코드로 이 모든 작업을 수행할 수 있습니다. 예를 들어 참조 코드 조각 모음.

Answer

이미 언급했듯이 wget은 클라이언트 측 JavaScript 코드를 사용하는 페이지를 생성할 수 없습니다. Python 프로그래밍의 기본을 알고 있다면 Python 라이브러리를 사용하는 것이 좋습니다.긁힌웹사이트 크롤링을 위해셀렌, 외부 브라우저를 사용하여 동적 페이지를 생성할 수 있습니다. 아주 적은 양의 Python 코드로 이 모든 작업을 수행할 수 있습니다. 예를 들어 참조 코드 조각 모음.

이 사이트를 미러링할 때 wget이 모든 페이지를 가져오지 못하는 이유는 무엇입니까?

답변1

답변2

관련 정보