Tenho cerca de 1 milhão de imagens (organizadas em diretórios) que preciso colocar no S3. Comecei a usar o s3sync.rb, mas como ele foi desenvolvido para sincronização, ele cria vários arquivos extras para controlar as coisas. Eu não preciso nem quero isso - só preciso fazer o upload uma vez.
Em seguida, tentei s3cmd (a versão python), que possui uma opção --recursive para colocação simples. O problema é que ele tenta processar todos os arquivos de upload antecipadamente (pelo menos é o que parece no modo de depuração), o que não funciona para o número de arquivos que tenho.
Estou pensando em tentar algo como bucket explorer ou s3fox, mas tenho medo de perder muito tempo e chegar apenas na metade do caminho.
Alguma recomendação, por favor?
Editar: estou ciente de algumas opções para montar o s3, mas não tive boas experiências com o s3fs. O jungledisk funcionaria bem com um grande número de arquivos? Além disso, esses programas tendem a criar arquivos extras que eu preferiria não ter.
Responder1
Eu não tentei essa opção de armazenamento específica, maspato cibernéticosuporta s3, tem uma opção de sincronização e geralmente tem sido bastante robusto para mim.
Responder2
Você poderiaenvie-lhes um dispositivo de armazenamento portátilcom seus dados nele?
Responder3
Você poderia tentar executar s3sync.rb
com as --no-md5
opções. Com essa opção apenas a data de modificação é comparada.
Usei o Jungledisk para fazer backup de um grande número de arquivos (~ 20k) e funcionou muito bem. Embora crie um banco de dados separado para manter os arquivos que foram carregados (e realizar a desduplicação). Pelo que vi, o tamanho do banco de dados de backup é trivial comparado ao tamanho de todos os arquivos dos quais foi feito backup.
Não importa como você carrega coisas para o S3, haverá "arquivos extras" porque o S3 não armazena diretórios, ele suporta apenas chaves e nós, portanto, as informações do diretório devem ser salvas separadamente.