robots.txt를 존중하면서 웹을 캐시하려면 얼마나 많은 HDD 공간이 필요합니까?

robots.txt를 존중하면서 웹을 캐시하려면 얼마나 많은 HDD 공간이 필요합니까?

웹 크롤러를 만들어 실험하고 싶습니다. Stack Overflow나 Smashing Magazine과 같은 중간 규모 웹사이트 몇 개를 색인화하는 것부터 시작하겠습니다. 성공한다면 전체 웹 크롤링을 시작하고 싶습니다. 나는 robots.txt를 존중하겠습니다. 나는 모든 html, pdf, word, excel, powerpoint, keynote 등의 문서(exes, dmgs 등이 아닌 문서만)를 MySQL DB에 저장합니다. 그 옆에는 모든 결과와 설명이 포함된 두 번째 테이블과 단어가 포함된 테이블과 해당 단어를 찾을 수 있는 페이지(색인이라고도 함)가 있습니다.

모든 페이지를 저장하려면 얼마나 많은 HDD 공간이 필요하다고 생각하시나요? 1TB 정도로 낮은가요, 아니면 10TB, 20 정도인가요? 어쩌면 30? 1000?

감사해요

답변1

인터넷 아카이브는 귀하가 언급한 것처럼 웹을 색인화하지만, 제가 아는 한 문서가 아닌 웹사이트만 보존합니다. 이전 버전의 사이트를 색인화한 상태로 유지하므로 필요한 공간이 훨씬 더 커질 수 있습니다. FAQ에서는 해당 작업에 필요한 공간이 2페타바이트라고 말합니다(http://www.archive.org/about/faqs.php#9) 및 약 수백 개의 Linux 서버가 있으며 각각 약 1TB의 데이터를 보유하고 있습니다. 그것은 당신에게 첫인상을 줄 수 있는 수치여야 합니다.

답변2

2008년에 Google은 1,000,000,000,000페이지의 색인을 생성했는데, 웹페이지가 평균적으로 1Ko라면 이것은 1000To입니다.
평균 1ko 파 페이지는 매우 낮은 추정치일 뿐입니다.. PDF가 엄청난 크기를 하고 있습니다...

행운을 빌어요

답변3

설명 등을 포함할 때쯤이면 색인 하나만으로 페이지당 평균 1KiloByte를 실행할 수 있을 것으로 생각됩니다. 거기에는 많은 페이지가 있습니다...

관련 정보