Sistema de arquivos de armazenamento distribuído - Qual/Existe um produto pronto para uso?

Question 1

Eu acho que você terá que abandonar o requisito POSIX, poucos sistemas implementam isso - na verdade, mesmo o NFS não (pense em bloqueios, etc.) e isso não tem redundância.

Qualquer sistema que use replicação síncrona será extremamente lento; qualquer sistema que tenha replicação assíncrona (ou "consistência eventual") violará as regras POSIX e não se comportará como um sistema de arquivos "convencional".

Answer

Eu acho que você terá que abandonar o requisito POSIX, poucos sistemas implementam isso - na verdade, mesmo o NFS não (pense em bloqueios, etc.) e isso não tem redundância.

Qualquer sistema que use replicação síncrona será extremamente lento; qualquer sistema que tenha replicação assíncrona (ou "consistência eventual") violará as regras POSIX e não se comportará como um sistema de arquivos "convencional".

Question 2

Não posso falar com o resto, mas você parece estar confuso entre um 'mecanismo de armazenamento distribuído' e um 'sistema de arquivos distribuído'. Não são a mesma coisa, não devem ser confundidos com a mesma coisa e nunca serão a mesma coisa. Um sistema de arquivos é uma forma de controlar onde as coisas estão localizadas em um disco rígido. Um mecanismo de armazenamento como o hadoop é uma forma de rastrear um pedaço de dados identificado por uma chave. Conceitualmente, não há muita diferença. O problema é que um sistema de arquivos é uma dependência de um mecanismo de armazenamento... afinal, ele precisa de uma forma de gravar em um dispositivo de bloco, não é?

Deixando tudo isso de lado, eupodefale sobre o uso do ocfs2 como um sistema de arquivos distribuído em um ambiente de produção. Se você não quiser detalhes detalhados, pare de ler após esta linha: É muito legal, mas pode significar mais tempo de inatividade do que você pensa.

Temos executado ocfs2 em um ambiente de produção nos últimos dois anos. Tudo bem, mas não é ótimo para muitas aplicações. Você realmente deve analisar seus requisitos e descobrir quais são - você pode descobrir que tem muito mais liberdade para falhas do que pensava.

Por exemplo, ocfs2 possui um diário para cada máquina do cluster que irá montar a partição. Então, digamos que você tenha quatro máquinas web e, ao criar essa partição usando mkfs.ocfs2, especifique que haverá seis máquinas no total para ter espaço para crescer. Cada um desses diários ocupa espaço, o que reduz a quantidade de dados que você pode armazenar nos discos. Agora, digamos que você precise dimensionar para sete máquinas. Nessa situação, você precisa derrubar ointeirocluster (ou seja, desmonte todas as partições ocfs2) e use o utilitário tunefs.ocfs2 para criar um diário adicional, desde que haja espaço disponível. Então, e somente então, você poderá adicionar a sétima máquina ao cluster (o que requer a distribuição de um arquivo de texto para o resto do cluster, a menos que você esteja usando um utilitário), trazer tudo de volta e, em seguida, montar a partição em todos os sete máquinas.

Veja o que quero dizer? É suposto ser de alta disponibilidade, o que significa 'sempre online', mas aí você tem um monte de tempo de inatividade... e Deus me livre, você está lotado de espaço em disco. Você NÃO quer ver o que acontece quando você lota ocfs2.

Tenha em mente que o evms, que costumava ser a forma 'preferida' de gerenciar clusters ocfs2, seguiu o caminho do pássaro dodô em favor do clvmd e do lvm2. (E boa viagem para evms.) Além disso, o batimento cardíaco rapidamente se transformará em um projeto zumbi em favor da pilha openais/pacemaker. (Além disso: ao fazer a configuração inicial do cluster para ocfs2, você pode especificar 'pcmk' como o mecanismo do cluster em vez de pulsação. Não, isso não está documentado.)

Pelo que vale a pena, voltamos ao nfs gerenciado pelo marcapasso, porque os poucos segundos de tempo de inatividade ou alguns pacotes tcp descartados enquanto o marcapasso migra um compartilhamento nfs para outra máquina são triviais em comparação com a quantidade de tempo de inatividade que estávamos vendo para o básico operações de armazenamento compartilhado, como adicionar máquinas ao usar ocfs2.

Answer

Não posso falar com o resto, mas você parece estar confuso entre um 'mecanismo de armazenamento distribuído' e um 'sistema de arquivos distribuído'. Não são a mesma coisa, não devem ser confundidos com a mesma coisa e nunca serão a mesma coisa. Um sistema de arquivos é uma forma de controlar onde as coisas estão localizadas em um disco rígido. Um mecanismo de armazenamento como o hadoop é uma forma de rastrear um pedaço de dados identificado por uma chave. Conceitualmente, não há muita diferença. O problema é que um sistema de arquivos é uma dependência de um mecanismo de armazenamento... afinal, ele precisa de uma forma de gravar em um dispositivo de bloco, não é?

Deixando tudo isso de lado, eupodefale sobre o uso do ocfs2 como um sistema de arquivos distribuído em um ambiente de produção. Se você não quiser detalhes detalhados, pare de ler após esta linha: É muito legal, mas pode significar mais tempo de inatividade do que você pensa.

Temos executado ocfs2 em um ambiente de produção nos últimos dois anos. Tudo bem, mas não é ótimo para muitas aplicações. Você realmente deve analisar seus requisitos e descobrir quais são - você pode descobrir que tem muito mais liberdade para falhas do que pensava.

Por exemplo, ocfs2 possui um diário para cada máquina do cluster que irá montar a partição. Então, digamos que você tenha quatro máquinas web e, ao criar essa partição usando mkfs.ocfs2, especifique que haverá seis máquinas no total para ter espaço para crescer. Cada um desses diários ocupa espaço, o que reduz a quantidade de dados que você pode armazenar nos discos. Agora, digamos que você precise dimensionar para sete máquinas. Nessa situação, você precisa derrubar ointeirocluster (ou seja, desmonte todas as partições ocfs2) e use o utilitário tunefs.ocfs2 para criar um diário adicional, desde que haja espaço disponível. Então, e somente então, você poderá adicionar a sétima máquina ao cluster (o que requer a distribuição de um arquivo de texto para o resto do cluster, a menos que você esteja usando um utilitário), trazer tudo de volta e, em seguida, montar a partição em todos os sete máquinas.

Veja o que quero dizer? É suposto ser de alta disponibilidade, o que significa 'sempre online', mas aí você tem um monte de tempo de inatividade... e Deus me livre, você está lotado de espaço em disco. Você NÃO quer ver o que acontece quando você lota ocfs2.

Tenha em mente que o evms, que costumava ser a forma 'preferida' de gerenciar clusters ocfs2, seguiu o caminho do pássaro dodô em favor do clvmd e do lvm2. (E boa viagem para evms.) Além disso, o batimento cardíaco rapidamente se transformará em um projeto zumbi em favor da pilha openais/pacemaker. (Além disso: ao fazer a configuração inicial do cluster para ocfs2, você pode especificar 'pcmk' como o mecanismo do cluster em vez de pulsação. Não, isso não está documentado.)

Pelo que vale a pena, voltamos ao nfs gerenciado pelo marcapasso, porque os poucos segundos de tempo de inatividade ou alguns pacotes tcp descartados enquanto o marcapasso migra um compartilhamento nfs para outra máquina são triviais em comparação com a quantidade de tempo de inatividade que estávamos vendo para o básico operações de armazenamento compartilhado, como adicionar máquinas ao usar ocfs2.

Question 3

Posso estar entendendo mal seus requisitos, mas você já olhouhttp://en.wikipedia.org/wiki/List_of_file_systems#Distributed_file_systems

Answer

Posso estar entendendo mal seus requisitos, mas você já olhouhttp://en.wikipedia.org/wiki/List_of_file_systems#Distributed_file_systems

Question 4

Dê uma olhada no chilrearhttp://www.cse.nd.edu/~ccl/software/chirp/e papagaiohttp://www.cse.nd.edu/~ccl/software/parrot/

Answer

Dê uma olhada no chilrearhttp://www.cse.nd.edu/~ccl/software/chirp/e papagaiohttp://www.cse.nd.edu/~ccl/software/parrot/

Sistema de arquivos de armazenamento distribuído - Qual/Existe um produto pronto para uso?

Responder1

Responder2

Responder3

Responder4

informação relacionada