在尊重 robots.txt 的同時,我需要多少硬碟空間來快取網路?

在尊重 robots.txt 的同時,我需要多少硬碟空間來快取網路?

我想嘗試建立一個網路爬蟲。我將從索引一些中型網站(例如 Stack Overflow 或 Smashing Magazine)開始。如果它有效,我想開始抓取整個網路。我會尊重robot.txts。我將所有 html、pdf、word、excel、powerpoint、keynote 等文件(不是 exe、dmgs 等,只是文件)保存在 MySQL 資料庫中。接下來,我將有第二個表,其中包含所有結果和描述,以及一個包含單字以及在哪個頁面上查找這些單字的表(也稱為索引)。

您認為我需要多少硬碟空間來保存所有頁面?低至 1 TB 還是約 10 TB、20?也許30? 1000?

謝謝

答案1

網路檔案確實像您提到的那樣對網路進行索引,但據我所知,僅保留網站,而不保留文件。他們確實保留了舊版本的網站索引,因此他們對空間的需求可能會大得多。在他們的常見問題中,他們談到了該任務所需的 2 PB 空間(http://www.archive.org/about/faqs.php#9)和大約數百台 Linux 伺服器,每台保存大約 1TB 的資料。那應該是一些數字,這應該會給你一個第一印象。

答案2

2008年,Google索引了1,000,000,000,000個頁面,如果一個網頁平均為1Ko,那麼這是1000To
平均1ko標準頁面只是一個非常低的估計..有PDF做巨大的尺寸...

祝你好運

答案3

我懷疑,當您添加描述等內容時,僅一個索引就會平均每頁運行一千字節。

相關內容