Welche Software kann ich zum Scrapen (Herunterladen) eines MediaWiki-Wikis verwenden?

Welche Software kann ich zum Scrapen (Herunterladen) eines MediaWiki-Wikis verwenden?

Ich möchte ein ganzes Wiki scrapen, das die MediaWiki-Software verwendet. Die Anzahl der Seiten ist ziemlich gering, aber sie haben viele Revisionen, und ich möchte vorzugsweise auch Revisionen scrapen.

Im Gegensatz zu Wikipedia bietet das Wiki keine Datenbank-Dumps. Gibt es bereits Software/Skripte zum Scrapen von MediaWiki-Sites?

Antwort1

Wenn der Betreuer des Wikis es nicht deaktiviert hat, können Sie Seiten mit ihrer Historie exportieren überSpezial:Export. Dadurch erhalten Sie einen XML-Dump, der den Datenbank-Dumps von Wikipedia ähnelt und den Sie dann in ein anderes Wiki importieren können.

Eine weitere Möglichkeit, den Seitenverlauf von MediaWiki im XML-Format abzurufen, ist die Verwendung desprop=revisions API-Abfrage. Das API-Ergebnisformat unterscheidet sich jedoch etwas von dem von Spezial:Export erzeugten Format, daher müssen Sie die Ausgabe wahrscheinlich ein wenig verarbeiten, bevor Sie sie an Standard-Importskripte weitergeben können.

Antwort2

Schauen Sie sich die von WikiTeam verfügbaren Tools an.http://archiveteam.org/index.php?title=WikiTeam

Ich persönlich verwende dumpgenerator.py von Wikiteam, das hier verfügbar ist:https://github.com/WikiTeam/wikiteam

Es hängt von Python 2 ab. Sie können die Software mit Git erhalten oder die Zip-Datei von GitHub herunterladen:

git clone https://github.com/WikiTeam/wikiteam.git

Die grundlegende Verwendung ist:

python dumpgenerator.py http://wiki.domain.org --xml --images

verwandte Informationen