Quais são as armadilhas de ter um RAID1 "desequilibrado"?

Quais são as armadilhas de ter um RAID1 "desequilibrado"?

Contexto: Tenho um servidor com duas unidades NAS de 3 TB em um RAID1 (Linux dmraid) e pretendo dobrar a capacidade de armazenamento, mas só tenho um compartimento de unidade livre. Eu poderia comprar duas unidades de 6 TB, mas pensei que poderia comprar apenas uma e remodelar o array para ser:

  • RAID1 de 6 TB
    • Disco de 6 TB (novo)
    • RAID0 de 6 TB
      • Disco de 3 TB (existente)
      • Disco de 3 TB (existente)

Não estou preocupado com o processo de remodelação, pois deve ser bastante simples:

  1. Faça backup do conteúdo, é claro.
  2. Aumente o RAID1 existente para 3 dispositivos adicionando o disco de 6 TB.
  3. Aguarde a conclusão da ressincronização.
  4. Remova os dois dispositivos de 3 TB do array. (A matriz fica degradada.)
  5. Reduza a matriz para 2 dispositivos.
  6. Crie o RAID0 nos dois dispositivos de 3 TB.
  7. Adicione o RAID0 como o segundo dispositivo ao RAID1.
  8. O RAID1 é ressincronizado e não está mais degradado.
  9. Redimensione o RAID1, aumentando-o de 3 TB para 6 TB.

Tudo isso deve ser possível online.

No entanto, quero ter certeza de que isso ésão. Todas as unidades seriam do mesmo fabricante e série (WD Red). O desempenho é menos preocupante para mim do que a confiabilidade.

Que problemas posso encontraroperando e mantendotal matriz? (Não estou perguntando sobre o processo de migração/remodelagem; estou bastante confortável com esse procedimento.)

Haveria uma vantagem de desempenho ou confiabilidade em ter um dispositivo RAID1 (o disco de 6 TB ou o RAID0 de 3 TB + 3 TB) sinalizado como principalmente gravação? Por exemplo, como o RAID0 contém unidades mais antigas, a gravação principalmente no dispositivo RAID0 prolongaria a vida útil dessas unidades?

Responder1

dr: Certifique-se de que essas unidades menores sejam extremamente confiáveis.

Você estaria fazendo como o antigo metadisco SunOS, com atualizações interessantes, quando as unidades SCSI eram proibitivamente $$$. ;) O fato de as unidades serem do mesmo fabricante tem pouco ou nenhum impacto sobre o que importa ao sistema operacional. É bom padronizar em um modelo exato, origem de fábrica e rotação da placa, porque então as placas controladoras podem ser trocadas caso uma placa falhe. (Se você tiver uma caixa limpa como Louis Rossmann, poderá até trocar os pratos entre as unidades.)

Pf = probabilidade de falha

D# = número do disco#

A confiabilidade do RAID0 é Pf(D0) * Pf(D1)

A confiabilidade do RAID1 é 1 - (1 - Pf(D0)) * (1 - Pf(D1))

O que leva a um Pf geral = 1 - (1 - Pf(D0)) * (1 - Pf(D10)*Pf(D11))

Para referência futura, verifique o blog do BackBlaze para modelos de unidades atuais específicos e muito confiáveis, a fim de obter unidades de qualidade relativamente baratas e ficar longe de unidades problemáticas. Existem unidades de "consumidor de varejo" com MTTF/MTBF comprovadamente melhores do que unidades empresariais, e elas também são muito mais baratas.

Referências

http://www.eventhelix.com/RealtimeMantra/FaultHandling/system_reliability_availability.htm#.W5deNaRlCEc

https://www.backblaze.com/blog/

Responder2

O que você está fazendo é exatamente o que fizemos em nossa (pequena) empresa. Aumentamos o tamanho de nosso array RAID1 de 1 TB inicial para 4 TB de forma semelhante ao que você está descrevendo, inicialmente comprando uma ou duas unidades maiores e, em seguida, completando o novo grande array com mais unidades maiores, já que algumas das menores foram removidas do array devido a uma falha ou porque eram necessários para substituir outras unidades (ainda menores) com falha em outros PCs da empresa.

Não estamos muito preocupados com o desempenho e vimos um desempenho diferente nesses anos, então não posso falar sobre isso.

Estamos mais preocupados com a confiabilidade (como você), e posso dizer que nosso array RAID é um array 3-RAID1, além de um sobressalente externo que é ressincronizado todos os dias e trocado por uma das unidades 3-RAID1. O sobressalente externo é para recuperação de desastres: caso algum evento destrua todos os drives do array, podemos começar imediatamente com os dados do dia anterior.

Com um RAID1 de 2 unidades, você precisa se preocupar com o tempo de ressincronização necessário ao colocar uma nova unidade para substituir uma com falha, que pode levar várias horas para um array de 6 TB. Você fica com a confiabilidade de uma única unidade durante essas horas. Com essas unidades grandes, acho melhor ter pelo menos um RAID1 de 3 unidades.

informação relacionada