S3에 들어가야 하는 약 100만 개의 이미지(디렉터리로 구성되어 있음)가 있습니다. s3sync.rb를 사용하기 시작했지만 동기화용으로 제작되었기 때문에 추적을 위해 수많은 추가 파일이 생성됩니다. 필요하지도 않고 원하지도 않습니다. 한 번만 업로드하면 됩니다.
다음으로 간단한 put을 위한 --recursive 옵션이 있는 s3cmd(파이썬 버전)를 시도했습니다. 문제는 모든 업로드 파일을 미리 처리하려고 시도한다는 것입니다(적어도 디버그 모드에서는 그렇게 보입니다). 이는 제가 가지고 있는 파일 수에 비해 작동하지 않습니다.
버킷 익스플로러나 s3fox 같은 것을 시도해 볼 생각인데 시간을 많이 낭비하고 절반밖에 못 갈까 두렵습니다.
추천 좀 부탁드립니다.
편집: s3 마운트 옵션 중 일부를 알고 있지만 s3fs에 대한 좋은 경험은 없습니다. 정글디스크는 파일이 많을 때 잘 작동하나요? 또한 이러한 프로그램은 내가 갖고 싶지 않은 추가 파일을 생성하는 경향이 있습니다.
답변1
특정 저장 옵션을 시도하지는 않았지만사이버덕s3를 지원하고 동기화 옵션이 있으며 일반적으로 나에게 매우 강력했습니다.
답변2
당신은 할 수 있습니까?휴대용 저장 장치를 보내주세요당신의 데이터가 거기에 있나요?
답변3
s3sync.rb
옵션을 사용하여 실행해 볼 수 있습니다 --no-md5
. 해당 옵션을 사용하면 수정된 날짜만 비교됩니다.
저는 Jungledisk를 사용하여 꽤 많은 수(~20,000개)의 파일을 백업했는데 성능이 매우 뛰어났습니다. 하지만 업로드된 파일을 보관하고 중복 제거를 수행하기 위해 별도의 데이터베이스를 생성합니다. 제가 본 바로는 백업 데이터베이스의 크기는 백업된 모든 파일의 크기에 비해 아주 작습니다.
S3에 어떻게 업로드하든 "추가 파일"이 발생합니다. S3는 디렉터리를 저장하지 않고 키와 노드만 지원하므로 디렉터리 정보를 별도로 저장해야 하기 때문입니다.