Quanto espaço no disco rígido eu precisaria para armazenar em cache a web respeitando o robot.txts?

Quanto espaço no disco rígido eu precisaria para armazenar em cache a web respeitando o robot.txts?

Quero experimentar a criação de um rastreador da web. Começarei indexando alguns sites de tamanho médio, como Stack Overflow ou Smashing Magazine. Se funcionar, gostaria de começar a rastrear toda a web. Respeitarei o robot.txts. Eu salvo todos os documentos html, pdf, word, excel, powerpoint, keynote, etc... (não exes, dmgs etc, apenas documentos) em um banco de dados MySQL. Além disso, terei uma segunda tabela contendo todos os resultados e descrições, e uma tabela com palavras e em que página encontrar essas palavras (também conhecido como índice).

Quanto espaço no disco rígido você acha que preciso para salvar todas as páginas? É tão baixo quanto 1 TB ou cerca de 10 TB, 20? Talvez 30? 1000?

Obrigado

Responder1

O arquivo da Internet indexa a web como você mencionou, mas preserva apenas sites, não documentos, até onde eu sei. Eles mantêm versões mais antigas de sites indexadas, portanto, sua necessidade de espaço pode ser muito maior. Em seu FAQ eles falam sobre 2 petabytes de espaço necessário para essa tarefa (http://www.archive.org/about/faqs.php#9) e cerca de centenas de servidores Linux, cada um contendo cerca de 1 TB de dados. Devem ser alguns números, que devem dar uma primeira impressão.

Responder2

Em 2008, o Google indexava 1.000.000.000.000 de páginas, se uma página da web tem, em média, 1Ko, isso é 1000To.
Uma média de 1ko por página é apenas uma estimativa muito baixa.

Boa sorte

Responder3

Suspeito que apenas um índice irá gerar em média um KiloByte por página, no momento em que você incluir a descrição, etc.

informação relacionada