%20%E3%81%99%E3%82%8B%E3%81%AB%E3%81%AF%E3%81%A9%E3%81%AE%E3%82%BD%E3%83%95%E3%83%88%E3%82%A6%E3%82%A7%E3%82%A2%E3%82%92%E4%BD%BF%E7%94%A8%E3%81%A7%E3%81%8D%E3%81%BE%E3%81%99%E3%81%8B%3F%20.png)
MediaWiki ソフトウェアを使用する wiki 全体をスクレイピングしたいと考えています。ページ数は非常に少ないですが、リビジョンは多数あるため、できればリビジョンもスクレイピングしたいと考えています。
Wiki は、Wikipedia とは異なり、データベース ダンプを提供していません。MediaWiki サイトをスクレイピングするように設計された既存のソフトウェア/スクリプトはありますか?
答え1
ウィキの管理者がこれを無効にしていない場合は、ページを履歴付きでエクスポートすることができます。特別:エクスポートこれにより、Wikipedia のデータベース ダンプに似た XML ダンプが生成され、それを別の wiki にインポートできるようになります。
MediaWikiからXML形式でページ履歴を取得する別の方法は、prop=revisions APIクエリただし、API の結果の形式は Special:Export によって生成される形式とは多少異なるため、標準のインポート スクリプトに渡す前に出力を少し処理する必要がある可能性があります。
答え2
WikiTeam から利用できるツールを確認してください。http://archiveteam.org/index.php?title=WikiTeam
私は個人的に、ここから入手できる wikiteam の dumpgenerator.py を使用しています:https://github.com/WikiTeam/wikiteam
これは Python 2 に依存します。Git を使用してソフトウェアを入手するか、github から zip をダウンロードできます。
git clone https://github.com/WikiTeam/wikiteam.git
基本的な使用方法は次のとおりです。
python dumpgenerator.py http://wiki.domain.org --xml --images