Сколько места на жестком диске мне понадобится для кэширования веб-сайтов с учетом robot.txts?

Сколько места на жестком диске мне понадобится для кэширования веб-сайтов с учетом robot.txts?

Хочу поэкспериментировать с созданием веб-краулера. Начну с индексации нескольких сайтов среднего размера, таких как Stack Overflow или Smashing Magazine. Если получится, начну сканировать весь интернет. Буду уважать robot.txts. Я сохраняю все документы html, pdf, word, excel, powerpoint, keynote и т. д. (не exe, dmgs и т. д., а просто документы) в базе данных MySQL. Рядом с этим у меня будет вторая таблица, содержащая все результаты и описания, а также таблица со словами и на какой странице их искать (иначе называемая индексом).

Сколько места на жестком диске мне нужно, чтобы сохранить все страницы? Это всего лишь 1 ТБ или около 10 ТБ, 20? Может быть 30? 1000?

Спасибо

решение1

Архив интернета индексирует веб, как вы упомянули, но сохраняет только веб-сайты, а не документы, насколько мне известно. Они индексируют старые версии сайтов, поэтому их потребность в пространстве может быть намного больше. В своих FAQ они говорят о 2 петабайтах необходимого пространства для этой задачи (http://www.archive.org/about/faqs.php#9) и около сотни серверов Linux, каждый из которых содержит около 1 ТБ данных. Это должны быть некоторые цифры, которые должны дать вам первое впечатление.

решение2

В 2008 году Google индексировал 1 000 000 000 000 страниц, если средний размер веб-страницы составляет 1 Кб, это 1000Кб.
Средний размер страницы в 1 Кб — это всего лишь очень низкая оценка. Есть PDF-файлы, которые делают огромные...

Удачи

решение3

Я подозреваю, что один только индекс обойдется вам в среднем в один килобайт на страницу, если учесть, что вы добавляете описание и т. д. Существует множество страниц...

Связанный контент