Quero copiar um wiki inteiro que usa o software MediaWiki. A quantidade de páginas é bem pequena, mas elas têm muitas revisões, e eu gostaria de, de preferência, raspar as revisões também.
A wiki não oferece dumps de banco de dados, ao contrário da Wikipedia. Existe algum software/scripts projetados para copiar sites MediaWiki?
Responder1
Se o mantenedor do wiki não o tiver desligado, você poderá exportar páginas com seu histórico atravésEspecial:Exportação. Isto lhe dará um despejo XML semelhante aos despejos de banco de dados da Wikipédia, que você poderá importar para outro wiki.
Outra forma de obter o histórico da página do MediaWiki em formato XML é usar oprop = consulta de API de revisões. No entanto, o formato dos resultados da API é um pouco diferente daquele produzido por Special:Export, então você provavelmente terá que processar a saída um pouco antes de alimentá-la nos scripts de importação padrão.
Responder2
Confira as ferramentas disponíveis no WikiTeam.http://archiveteam.org/index.php?title=WikiTeam
Eu pessoalmente uso dumpgenerator.py do wikiteam, que está disponível aqui:https://github.com/WikiTeam/wikiteam
Depende do python 2. Você pode obter o software usando git ou baixar o zip do github:
git clone https://github.com/WikiTeam/wikiteam.git
O uso básico é:
python dumpgenerator.py http://wiki.domain.org --xml --images