..png)
조언이 필요해요.
나는 웹 서버 VM(인터넷이 아닌 LAN)을 가지고 있고, 여기에는 2개의 위키가 있습니다:
GameWiki에 들어가지 않고 숙제 위키 페이지만 가져오고 싶습니다.
내 목표는 wget을 사용하여 .html(다른 모든 파일 이미지 등 무시)을 얻는 것입니다. (나는 mysqldump 또는 mediawiki 내보내기를 수행하고 싶지 않고 HTML을 두 번 클릭하기를 원하는 (IT가 아닌) 상사를 위해 wget을 수행하고 싶습니다).
이 VM의 GameWiki가 아닌 HomeWorkWiki만 크롤링하도록 wget을 실행하려면 어떻게 해야 합니까?
감사해요
답변1
해결책은 httrack을 사용하고 마법사를 신중하게 사용자 정의하거나 wget을 사용하여 다음과 같은 뛰어난 단일 라이너를 사용하는 것이었습니다.
echo "로봇 = 꺼짐" > ~/robots.txt ; wget --mirror --convert-links --html-extension --no-parent --wait=0 "http://10.168.0.4/GameWiki"