transferindo arquivos sem duplicação

transferindo arquivos sem duplicação

Digamos que estou hospedando servidores onde os usuários colocam arquivos e no final do dia todos esses arquivos são recuperados em um servidor de armazenamento.

O problema é que muitos desses arquivos serão duplicados e quero evitar ter que copiar 10 vezes os mesmos arquivos.

Eu estava pensando em obter um hash para cada arquivo que transita para ter certeza de que cada um é único, mas talvez haja soluções melhores.

Responder1

Uma opção é separar isso em 2 tarefas.

Primeiro, encontre os arquivos duplicados na máquina de origem e crie links simbólicos, atalhos ou algo semelhante para que as duplicatas sejam representadas, mas não consumam espaço em disco. Uma opção que descobri que funciona muito bem para encontrar duplicatas éum script Python bem ajustadoem SO. Pode ser necessário modificá-lo para seu caso de uso.

O segundo passo, claro, é copiar os arquivos para a outra máquina de uma forma que preserve o link simbólico ou os links de atalho.

informação relacionada