Ich möchte mit der Erstellung eines Webcrawlers experimentieren. Ich werde mit der Indizierung einiger mittelgroßer Websites wie Stack Overflow oder Smashing Magazine beginnen. Wenn das funktioniert, möchte ich das gesamte Web crawlen. Ich werde robot.txts respektieren. Ich speichere alle HTML-, PDF-, Word-, Excel-, PowerPoint-, Keynote- usw. Dokumente (keine EXE-, DMG- usw., nur Dokumente) in einer MySQL-Datenbank. Daneben werde ich eine zweite Tabelle mit allen Ergebnissen und Beschreibungen sowie eine Tabelle mit Wörtern und Angaben dazu haben, auf welcher Seite diese Wörter zu finden sind (auch bekannt als Index).
Wie viel Festplattenspeicherplatz benötige ich Ihrer Meinung nach, um alle Seiten zu speichern? Benötige ich nur 1 TB oder sind es etwa 10 TB, 20? Vielleicht 30? 1000?
Danke
Antwort1
Das Internetarchiv indiziert das Web zwar, wie Sie erwähnt haben, bewahrt aber meines Wissens nur Websites und keine Dokumente auf. Ältere Versionen von Websites werden indiziert, daher könnte ihr Speicherplatzbedarf viel größer sein. In ihren FAQ sprechen sie von 2 Petabyte Speicherplatz, der für diese Aufgabe erforderlich ist (http://www.archive.org/about/faqs.php#9) und über Hunderte von Linux-Servern, von denen jeder etwa 1 TB an Daten speichert. Das sollten einige Zahlen sein, die Ihnen einen ersten Eindruck vermitteln sollten.
Antwort2
Im Jahr 2008 indexierte Google 1.000.000.000.000 Seiten. Wenn eine Webseite durchschnittlich 1 KB groß ist, sind das 1000 To.
Ein Durchschnitt von 1 KB pro Seite ist nur eine sehr niedrige Schätzung. Es gibt PDFs mit riesigen Größen …
Viel Glück
Antwort3
Ich vermute, dass allein ein Index im Schnitt ein Kilobyte pro Seite kostet, wenn man die Beschreibung usw. mit einbezieht. Es gibt da draußen eine Menge Seiten ...