robot.txt を尊重しながら Web をキャッシュするには、どれくらいの HDD 容量が必要ですか?

robot.txt を尊重しながら Web をキャッシュするには、どれくらいの HDD 容量が必要ですか?

Web クローラーの作成を試してみたいと思います。まず、Stack Overflow や Smashing Magazine などの中規模 Web サイトのインデックス作成から始めます。うまくいけば、Web 全体のクロールを開始したいと思います。robot.txt は尊重します。すべての html、pdf、word、excel、powerpoint、keynote などのドキュメント (exe や dmg などではなく、ドキュメントのみ) を MySQL DB に保存します。その横に、すべての結果と説明を含む 2 番目のテーブルと、単語とその単語を検索するページ (インデックスとも呼ばれます) を含むテーブルを作成します。

すべてのページを保存するには、どれくらいの HDD 容量が必要だと思いますか? 1 TB 程度でしょうか、それとも 10 TB、20 TB、あるいは 30 TB、1000 TB くらいでしょうか?

ありがとう

答え1

インターネット アーカイブは、あなたがおっしゃったように Web をインデックスしますが、私が知る限り、Web サイトのみを保存し、ドキュメントは保存しません。古いバージョンのサイトはインデックスされているので、必要なスペースはもっと大きくなる可能性があります。FAQ では、そのタスクに必要なスペースは 2 ペタバイトと述べられています (http://www.archive.org/about/faqs.php#9) と、それぞれ約 1 TB のデータを保持する Linux サーバーが数百台あります。これは、第一印象を与える数字です。

答え2

2008 年に Google は 1,000,000,000,000 ページをインデックスしていました。Web ページが平均 1KB だとすると、これは 1000 から 1000 になります。1
ページあたり平均 1KB というのは非常に低い推定値です。PDF は巨大なサイズになっています...

幸運を

答え3

説明などを含めると、インデックスだけでも平均して 1 ページあたり 1 キロバイトかかるのではないかと思います。ページはたくさんあります...

関連情報