Raid 5 com hot-spare ou RAID 10 sem hot-spare?

Question 1

Qual é a tolerância ao tempo de inatividade do array? Está fisicamente próximo ou em um data center remoto? Basicamente, se você puder tolerar isso, um cold spare permite que você faça RAID10. O sobressalente está por perto, mas você precisa fazer a troca fisicamente. Se esse não for um cenário aceitável, então o RAID5 com hot spare é a única resposta que resta.

Como você já possui dois conjuntos RAID1 com tolerância a falhas de 1 unidade, você realmente não ganha nada ao usar o RAID10 sem hot spare. Todo o seu array ainda pode sobreviver apenas a uma falha de unidade.

Answer

Qual é a tolerância ao tempo de inatividade do array? Está fisicamente próximo ou em um data center remoto? Basicamente, se você puder tolerar isso, um cold spare permite que você faça RAID10. O sobressalente está por perto, mas você precisa fazer a troca fisicamente. Se esse não for um cenário aceitável, então o RAID5 com hot spare é a única resposta que resta.

Como você já possui dois conjuntos RAID1 com tolerância a falhas de 1 unidade, você realmente não ganha nada ao usar o RAID10 sem hot spare. Todo o seu array ainda pode sobreviver apenas a uma falha de unidade.

Question 2

Esses ataques são todos relativos entre si, assumindo os mesmos discos e controlador no array.

Raid5: Boa velocidade de leitura, velocidade de gravação ruim, pode sobreviver a qualquer falha dupla de disco se as falhas ocorrerem durante tempo suficiente para que o ataque seja reconstruído entre as falhas. (ou seja, o disco falha, o ataque é reconstruído, o disco falha, você está bem). Se você tiver falhas simultâneas de disco duplo, você será SOL, a menos que uma das falhas seja o hot spare. Com uma matriz de 4 discos, metade das falhas duplas de disco arruinarão o seu dia.
Raid6: Boa velocidade de leitura, velocidade de gravação realmente péssima. Pode sobreviver a qualquer falha dupla de disco. Não é tão comumente implementado quanto os outros ataques.
Raid10: Boas velocidades de leitura e gravação, pode sobreviver a qualquer falha de disco único, pode sobreviver (no caso de um ataque de 4 discos) a metade das possíveis falhas de disco duplo.
espelho de três vias + hot spare: muito menos espaço, pode sobreviver a qualquer falha de disco duplo e falha de até 3 discos se as falhas ocorrerem durante tempo suficiente para que o espelho seja reconstruído uma vez. Não tenho certeza de quantos controladores/sistemas operacionais suportam isso, mas foi um recurso que usei no Solaris com o MD antes do ZFS.

Há alguns problemas com os quais se preocupar ao analisar isso:

quanto tempo leva para reconstruir um array? A Sun começou a desenvolver o ZFS quando percebeu que, em algumas situações, o tempo para reconstruir um array raid5 é maior que o MTBF dos discos no array, praticamente garantindo que uma falha no disco resulte em uma falha no array.
discos do mesmo lote de fabricação podem ter todos a mesma falha (ou o palete caiu ou eles colocaram muitocola nas travessas quando estavam fazendo os discos)
Quanto mais complexo o array raid, mais complexo é o software no controlador/implementação; Já vi tantos controladores raid matarem arrays quanto discos com falha matarem arrays. Tenho visto discos individuais girarem por anos e anos e anos – a maioria faz isso, na verdade. O sistema mais confiável que já tive foi uma caixa sem nada redundante que nunca apresentou falha de componente. Já vi muitos UPSs, ataques e redundantes (inserir componentes aleatórios) causarem falhas porque tornaram o sistema mais complexo o suficiente para que a complexidade fosse a fonte da falha.

Você paga seu dinheiro, você se arrisca... A questão é:

Você sente sorte?

Answer

Esses ataques são todos relativos entre si, assumindo os mesmos discos e controlador no array.

Raid5: Boa velocidade de leitura, velocidade de gravação ruim, pode sobreviver a qualquer falha dupla de disco se as falhas ocorrerem durante tempo suficiente para que o ataque seja reconstruído entre as falhas. (ou seja, o disco falha, o ataque é reconstruído, o disco falha, você está bem). Se você tiver falhas simultâneas de disco duplo, você será SOL, a menos que uma das falhas seja o hot spare. Com uma matriz de 4 discos, metade das falhas duplas de disco arruinarão o seu dia.
Raid6: Boa velocidade de leitura, velocidade de gravação realmente péssima. Pode sobreviver a qualquer falha dupla de disco. Não é tão comumente implementado quanto os outros ataques.
Raid10: Boas velocidades de leitura e gravação, pode sobreviver a qualquer falha de disco único, pode sobreviver (no caso de um ataque de 4 discos) a metade das possíveis falhas de disco duplo.
espelho de três vias + hot spare: muito menos espaço, pode sobreviver a qualquer falha de disco duplo e falha de até 3 discos se as falhas ocorrerem durante tempo suficiente para que o espelho seja reconstruído uma vez. Não tenho certeza de quantos controladores/sistemas operacionais suportam isso, mas foi um recurso que usei no Solaris com o MD antes do ZFS.

Há alguns problemas com os quais se preocupar ao analisar isso:

quanto tempo leva para reconstruir um array? A Sun começou a desenvolver o ZFS quando percebeu que, em algumas situações, o tempo para reconstruir um array raid5 é maior que o MTBF dos discos no array, praticamente garantindo que uma falha no disco resulte em uma falha no array.
discos do mesmo lote de fabricação podem ter todos a mesma falha (ou o palete caiu ou eles colocaram muitocola nas travessas quando estavam fazendo os discos)
Quanto mais complexo o array raid, mais complexo é o software no controlador/implementação; Já vi tantos controladores raid matarem arrays quanto discos com falha matarem arrays. Tenho visto discos individuais girarem por anos e anos e anos – a maioria faz isso, na verdade. O sistema mais confiável que já tive foi uma caixa sem nada redundante que nunca apresentou falha de componente. Já vi muitos UPSs, ataques e redundantes (inserir componentes aleatórios) causarem falhas porque tornaram o sistema mais complexo o suficiente para que a complexidade fosse a fonte da falha.

Você paga seu dinheiro, você se arrisca... A questão é:

Você sente sorte?

Question 3

Eu teria que discordar do CHopper3. Como existem apenas 4 unidades nesta situação, seus recursos de falha são os mesmos (2 unidades) em qualquer cenário, exceto no ataque 10, se acontecer de você perder as 2 unidades erradas, você terá um problema real. Além disso, há definitivamente um benefício adicional em ter um sobressalente global para seus outros RAIDs.

Answer

Eu teria que discordar do CHopper3. Como existem apenas 4 unidades nesta situação, seus recursos de falha são os mesmos (2 unidades) em qualquer cenário, exceto no ataque 10, se acontecer de você perder as 2 unidades erradas, você terá um problema real. Além disso, há definitivamente um benefício adicional em ter um sobressalente global para seus outros RAIDs.

Question 4

Algumas outras coisas também precisam ser consideradas. Qual o tamanho/rápido de cada uma das unidades? Unidades SATA de 1 TB podem levar uma eternidade e um dia para reconstruir o hotspare em um RAID5, deixando uma grande janela aberta para uma falha na segunda unidade.

Você diz que o desempenho não é um problema, mas vi alguns impactos consideráveis no desempenho durante uma reconstrução do RAID5 (especialmente em gravações).

Answer

Algumas outras coisas também precisam ser consideradas. Qual o tamanho/rápido de cada uma das unidades? Unidades SATA de 1 TB podem levar uma eternidade e um dia para reconstruir o hotspare em um RAID5, deixando uma grande janela aberta para uma falha na segunda unidade.

Você diz que o desempenho não é um problema, mas vi alguns impactos consideráveis no desempenho durante uma reconstrução do RAID5 (especialmente em gravações).

Raid 5 com hot-spare ou RAID 10 sem hot-spare?

Responder1

Responder2

Responder3

Responder4

informação relacionada