Precisamos fazer backup de um sistema de arquivos com muitos hardlinks. Como existem vários hardlinks para cada arquivo "verdadeiro", gostaríamos de pular todos os hardlinks ao fazer backup do sistema de arquivos para evitar n cópias exatas de cada arquivo.
O backup é feito usando o Tivoli Storage Manager Backup e não conseguimos fazer com que ele tratasse os hardlinks como algo diferente de arquivos separados para backup um ao lado do outro.
Caso seja relevante para possíveis soluções, gostaria de observar que é possível diferenciar um hardlink de um arquivo adequado pelo nome do arquivo:
foobarbaz-123.ext # file
foobarbaz-123-1.ext # hardlink
foobarbaz-123-2.ext # hardlink
barbazfoo-456.ext # file
barbazfoo-456-1.ext # hardlink
barbazfoo-456-2.ext # hardlink
barbazfoo-456-3.ext # hardlink
Ou seja, todos os hardlinks possuem dois hífens no nome do arquivo, enquanto os arquivos apropriados possuem apenas um.
O servidor está executando o Ubuntu Linux e os arquivos estão localizados em um volume gfs em nossa SAN.
Responder1
Uma leitura rápida de alguns documentos do TSM sugere "Não faça isso!"
No Unix, um “arquivo” é apenas uma entrada de diretório que aponta para um inode. Um "hard link" ocorre apenas quando você tem mais de uma entrada de diretório (ponteiros) apontando para um determinado inode. Para todos os efeitos, esses dois “arquivos” são exatamente 100% idênticos.
Hard links são um mecanismo bem estabelecido e compreendido no Unix. É apropriado e comum encontrá-los e é comum que o software de backup entenda exatamente o que é um hardlink e faça backup dele exatamente como deveria - como outro indicador para um dado específico, não como um pedaço único e novo de dados que são exatamente iguais aos outros links físicos.
Uma pesquisa rápida sobre tsm e hardlinks indica que o tsm entende hard links e os documentos alertam especificamente:
Podem ocorrer problemas se você [fazer backup | arquivar] apenas um arquivo de um par com link físico. Por exemplo, os arquivos texta e textb contêm um link físico entre si. Você arquiva o texta, edita o textb e faz alterações. Se você recuperar texta, as alterações feitas em textb serão perdidas.
Curiosamente, parece que existem duas maneiras diferentes de fazer backups com o TSM – backups e arquivos, e as duas maneiras parecem lidar com links físicos de maneira diferente.
fazendo backup e restaurando arquivos:
Um link físico é estabelecido quando dois arquivos apontam para o mesmo arquivo de dados. Ao fazer backup de um arquivo que contém um link físico para outro arquivo, o TSM armazena as informações do link e o arquivo de dados no servidor. Se você fizer backup de dois arquivos que contenham um link físico entre si, o TSM armazenará o mesmo arquivo de dados em ambos os nomes, juntamente com as informações do link.
arquivar e restaurar arquivos:
Ao arquivar um arquivo que contém um link físico para outro arquivo, o TSM armazena as informações do link e o arquivo de dados no servidor.
A partir disso, parece que você explodirá seu servidor de backup se ele estiver "arquivando" coisas e fará o que quiser se estiver "fazendo backup". Deixe que a IBM simplifique!
Responder2
Primeiro, não há diferença entre um "arquivo próprio" e um "hardlink", o hardlink é apenas outro nome para o mesmo objeto, enquanto um softlink é na verdade um arquivo contendo um ponteiro para o arquivo real, e é por isso que um softlink pode cruzar os limites do sistema de arquivos e um hardlink não pode.
Sobre o problema real: dê uma olhada na opção Excluir e na opção incluir-excluir-lista nodocumentação, você deve ser capaz de resolver algo com eles. (como exclude /path/to/your/files/*-*-?.*
ou algo assim).
Responder3
Sem saber nada sobre o Tivoli Storage Manager, não seria possível fazer com que nenhum software tratasse os hardlinks de maneira diferente dos arquivos, uma vez que não há diferença real entre o identificador do arquivo original e os outros hardlinks. (pode ser possível fazer um script com base em nomes de arquivos)
Responder4
Atualize para o TSM 6.1 e ative a desduplicação. (atualmente disponível apenas com dispositivo do tipo FILE, mas paciência é uma virtude)