Wie viel Festplattenspeicherplatz benötige ich, um das Web unter Berücksichtigung von robot.txts zwischenzuspeichern?

Question 1

Das Internetarchiv indiziert das Web zwar, wie Sie erwähnt haben, bewahrt aber meines Wissens nur Websites und keine Dokumente auf. Ältere Versionen von Websites werden indiziert, daher könnte ihr Speicherplatzbedarf viel größer sein. In ihren FAQ sprechen sie von 2 Petabyte Speicherplatz, der für diese Aufgabe erforderlich ist (http://www.archive.org/about/faqs.php#9) und über Hunderte von Linux-Servern, von denen jeder etwa 1 TB an Daten speichert. Das sollten einige Zahlen sein, die Ihnen einen ersten Eindruck vermitteln sollten.

Answer

Das Internetarchiv indiziert das Web zwar, wie Sie erwähnt haben, bewahrt aber meines Wissens nur Websites und keine Dokumente auf. Ältere Versionen von Websites werden indiziert, daher könnte ihr Speicherplatzbedarf viel größer sein. In ihren FAQ sprechen sie von 2 Petabyte Speicherplatz, der für diese Aufgabe erforderlich ist (http://www.archive.org/about/faqs.php#9) und über Hunderte von Linux-Servern, von denen jeder etwa 1 TB an Daten speichert. Das sollten einige Zahlen sein, die Ihnen einen ersten Eindruck vermitteln sollten.

Question 2

Im Jahr 2008 indexierte Google 1.000.000.000.000 Seiten. Wenn eine Webseite durchschnittlich 1 KB groß ist, sind das 1000 To.
Ein Durchschnitt von 1 KB pro Seite ist nur eine sehr niedrige Schätzung. Es gibt PDFs mit riesigen Größen …

Viel Glück

Answer

Im Jahr 2008 indexierte Google 1.000.000.000.000 Seiten. Wenn eine Webseite durchschnittlich 1 KB groß ist, sind das 1000 To.
Ein Durchschnitt von 1 KB pro Seite ist nur eine sehr niedrige Schätzung. Es gibt PDFs mit riesigen Größen …

Viel Glück

Question 3

Ich vermute, dass allein ein Index im Schnitt ein Kilobyte pro Seite kostet, wenn man die Beschreibung usw. mit einbezieht. Es gibt da draußen eine Menge Seiten ...

Answer

Ich vermute, dass allein ein Index im Schnitt ein Kilobyte pro Seite kostet, wenn man die Beschreibung usw. mit einbezieht. Es gibt da draußen eine Menge Seiten ...

Wie viel Festplattenspeicherplatz benötige ich, um das Web unter Berücksichtigung von robot.txts zwischenzuspeichern?

Antwort1

Antwort2

Antwort3

verwandte Informationen