Ich möchte ein ganzes Wiki scrapen, das die MediaWiki-Software verwendet. Die Anzahl der Seiten ist ziemlich gering, aber sie haben viele Revisionen, und ich möchte vorzugsweise auch Revisionen scrapen.
Im Gegensatz zu Wikipedia bietet das Wiki keine Datenbank-Dumps. Gibt es bereits Software/Skripte zum Scrapen von MediaWiki-Sites?
Antwort1
Wenn der Betreuer des Wikis es nicht deaktiviert hat, können Sie Seiten mit ihrer Historie exportieren überSpezial:Export. Dadurch erhalten Sie einen XML-Dump, der den Datenbank-Dumps von Wikipedia ähnelt und den Sie dann in ein anderes Wiki importieren können.
Eine weitere Möglichkeit, den Seitenverlauf von MediaWiki im XML-Format abzurufen, ist die Verwendung desprop=revisions API-Abfrage. Das API-Ergebnisformat unterscheidet sich jedoch etwas von dem von Spezial:Export erzeugten Format, daher müssen Sie die Ausgabe wahrscheinlich ein wenig verarbeiten, bevor Sie sie an Standard-Importskripte weitergeben können.
Antwort2
Schauen Sie sich die von WikiTeam verfügbaren Tools an.http://archiveteam.org/index.php?title=WikiTeam
Ich persönlich verwende dumpgenerator.py von Wikiteam, das hier verfügbar ist:https://github.com/WikiTeam/wikiteam
Es hängt von Python 2 ab. Sie können die Software mit Git erhalten oder die Zip-Datei von GitHub herunterladen:
git clone https://github.com/WikiTeam/wikiteam.git
Die grundlegende Verwendung ist:
python dumpgenerator.py http://wiki.domain.org --xml --images