MediaWiki 소프트웨어를 사용하는 전체 위키를 긁어내고 싶습니다. 페이지 양은 꽤 적지만 수정본이 많아서 수정본도 긁어내는 것이 바람직합니다.
Wikipedia와 달리 Wiki는 데이터베이스 덤프를 제공하지 않습니다. MediaWiki 사이트를 스크랩하도록 설계된 기존 소프트웨어/스크립트가 있습니까?
답변1
위키 관리자가 이 기능을 끄지 않은 경우 다음을 통해 기록과 함께 페이지를 내보낼 수 있습니다.특수:수출. 그러면 Wikipedia의 데이터베이스 덤프와 유사한 XML 덤프가 제공되며, 이를 다른 Wiki로 가져올 수 있습니다.
MediaWiki에서 XML 형식으로 페이지 기록을 얻는 또 다른 방법은 다음을 사용하는 것입니다.prop=revisions API 쿼리. 그러나 API 결과 형식은 Special:Export에서 생성된 것과 다소 다르기 때문에 표준 가져오기 스크립트에 공급하기 전에 출력을 약간 처리해야 할 것입니다.
답변2
WikiTeam에서 제공되는 도구를 확인해 보세요.http://archiveteam.org/index.php?title=Wiki팀
저는 개인적으로 여기에서 사용할 수 있는 wikiteam의 dumpgenerator.py를 사용합니다.https://github.com/WikiTeam/wikiteam
Python 2에 따라 다릅니다. git을 사용하여 소프트웨어를 얻거나 github에서 zip을 다운로드할 수 있습니다.
git clone https://github.com/WikiTeam/wikiteam.git
기본 사용법은 다음과 같습니다.
python dumpgenerator.py http://wiki.domain.org --xml --images