¿Cuánto espacio en el disco duro necesitaría para almacenar en caché la web respetando los archivos robot.txts?

¿Cuánto espacio en el disco duro necesitaría para almacenar en caché la web respetando los archivos robot.txts?

Quiero experimentar con la creación de un rastreador web. Comenzaré indexando algunos sitios web de tamaño mediano como Stack Overflow o Smashing Magazine. Si funciona, me gustaría empezar a rastrear toda la web. Respetaré los robots.txts. Guardo todos los documentos html, pdf, word, excel, powerpoint, keynote, etc. (no exes, dmgs, etc., solo documentos) en una base de datos MySQL. Junto a eso, tendré una segunda tabla que contiene todos los resultados y descripciones, y una tabla con palabras y en qué página encontrar esas palabras (también conocido como índice).

¿Cuánto espacio en el disco duro crees que necesito para guardar todas las páginas? ¿Es tan bajo como 1 TB o son unos 10 TB, 20? ¿Quizás 30? 1000?

Gracias

Respuesta1

Internet logra indexar la web como usted mencionó, pero hasta donde yo sé, solo conserva sitios web, no documentos. Mantienen indexadas las versiones anteriores de los sitios, por lo que su necesidad de espacio puede ser mucho mayor. En sus preguntas frecuentes hablan de 2 petabytes de espacio requerido para esa tarea (http://www.archive.org/about/faqs.php#9) y alrededor de cientos de servidores Linux, cada uno con aproximadamente 1 TB de datos. Estas deberían ser algunas cifras que deberían darle una primera impresión.

Respuesta2

En 2008, Google indexaba 1.000.000.000.000 de páginas, si una página web tiene, en promedio, 1Ko, esto es 1000To.
Un promedio de 1ko por página es una estimación muy baja... hay PDF con un tamaño enorme...

Buena suerte

Respuesta3

Sospecho que un índice por sí solo le permitirá ejecutar un kilobyte por página en promedio, cuando incluya la descripción, etc. Hay muchas páginas por ahí...

información relacionada