robot.txt を尊重しながら Web をキャッシュするには、どれくらいの HDD 容量が必要ですか?

Question 1

インターネットアーカイブは、あなたがおっしゃったように Web をインデックスしますが、私が知る限り、Web サイトのみを保存し、ドキュメントは保存しません。古いバージョンのサイトはインデックスされているので、必要なスペースはもっと大きくなる可能性があります。FAQ では、そのタスクに必要なスペースは 2 ペタバイトと述べられています (http://www.archive.org/about/faqs.php#9) と、それぞれ約 1 TB のデータを保持する Linux サーバーが数百台あります。これは、第一印象を与える数字です。

Answer

インターネットアーカイブは、あなたがおっしゃったように Web をインデックスしますが、私が知る限り、Web サイトのみを保存し、ドキュメントは保存しません。古いバージョンのサイトはインデックスされているので、必要なスペースはもっと大きくなる可能性があります。FAQ では、そのタスクに必要なスペースは 2 ペタバイトと述べられています (http://www.archive.org/about/faqs.php#9) と、それぞれ約 1 TB のデータを保持する Linux サーバーが数百台あります。これは、第一印象を与える数字です。

Question 2

2008 年に Google は 1,000,000,000,000 ページをインデックスしていました。Web ページが平均 1KB だとすると、これは 1000 から 1000 になります。1
ページあたり平均 1KB というのは非常に低い推定値です。PDF は巨大なサイズになっています...

幸運を

Answer

2008 年に Google は 1,000,000,000,000 ページをインデックスしていました。Web ページが平均 1KB だとすると、これは 1000 から 1000 になります。1
ページあたり平均 1KB というのは非常に低い推定値です。PDF は巨大なサイズになっています...

幸運を

Question 3

説明などを含めると、インデックスだけでも平均して 1 ページあたり 1 キロバイトかかるのではないかと思います。ページはたくさんあります...

Answer

説明などを含めると、インデックスだけでも平均して 1 ページあたり 1 キロバイトかかるのではないかと思います。ページはたくさんあります...

robot.txt を尊重しながら Web をキャッシュするには、どれくらいの HDD 容量が必要ですか?

答え1

答え2

答え3

関連情報