Sim, esta é uma daquelas perguntas do tipo "faça meu trabalho por mim", tenha piedade :)
Estou no limite do que posso fazer com o número de discos rígidos em um servidor sem gastar uma quantia substancial de dinheiro. Ainda tenho quatro unidades para configurar e posso configurá-las como RAID 5 e dedicar um hot-spare ou como um RAID 10 sem hot-spare. O tamanho de cada um será o mesmo e o RAID 5 oferecerá desempenho suficiente.
Sou tímido em relação ao RAID 5, mas também não gosto da ideia de rodar sem um hot spare. Não estou tão interessado na degradação do desempenho, mas na quantidade de tempo que o sistema fica sem redundância adequada. O servidor e as unidades estão sob um contrato de resposta 13x5 de 4 horas (embora eu saiba que o provedor de serviços mais próximo fica a pelo menos 2 a 3 horas de carro no inverno).
Devo observar que o servidor também possui dois arrays RAID 1 que também seriam protegidos pelo hot spare. Por que eles não fazem gaiolas de unidade com 9 baias! Ei.
Responder1
Qual é a tolerância ao tempo de inatividade do array? Está fisicamente próximo ou em um data center remoto? Basicamente, se você puder tolerar isso, um cold spare permite que você faça RAID10. O sobressalente está por perto, mas você precisa fazer a troca fisicamente. Se esse não for um cenário aceitável, então o RAID5 com hot spare é a única resposta que resta.
Como você já possui dois conjuntos RAID1 com tolerância a falhas de 1 unidade, você realmente não ganha nada ao usar o RAID10 sem hot spare. Todo o seu array ainda pode sobreviver apenas a uma falha de unidade.
Responder2
Esses ataques são todos relativos entre si, assumindo os mesmos discos e controlador no array.
Raid5: Boa velocidade de leitura, velocidade de gravação ruim, pode sobreviver a qualquer falha dupla de disco se as falhas ocorrerem durante tempo suficiente para que o ataque seja reconstruído entre as falhas. (ou seja, o disco falha, o ataque é reconstruído, o disco falha, você está bem). Se você tiver falhas simultâneas de disco duplo, você será SOL, a menos que uma das falhas seja o hot spare. Com uma matriz de 4 discos, metade das falhas duplas de disco arruinarão o seu dia.
Raid6: Boa velocidade de leitura, velocidade de gravação realmente péssima. Pode sobreviver a qualquer falha dupla de disco. Não é tão comumente implementado quanto os outros ataques.
Raid10: Boas velocidades de leitura e gravação, pode sobreviver a qualquer falha de disco único, pode sobreviver (no caso de um ataque de 4 discos) a metade das possíveis falhas de disco duplo.
espelho de três vias + hot spare: muito menos espaço, pode sobreviver a qualquer falha de disco duplo e falha de até 3 discos se as falhas ocorrerem durante tempo suficiente para que o espelho seja reconstruído uma vez. Não tenho certeza de quantos controladores/sistemas operacionais suportam isso, mas foi um recurso que usei no Solaris com o MD antes do ZFS.
Há alguns problemas com os quais se preocupar ao analisar isso:
quanto tempo leva para reconstruir um array? A Sun começou a desenvolver o ZFS quando percebeu que, em algumas situações, o tempo para reconstruir um array raid5 é maior que o MTBF dos discos no array, praticamente garantindo que uma falha no disco resulte em uma falha no array.
discos do mesmo lote de fabricação podem ter todos a mesma falha (ou o palete caiu ou eles colocaram muitocola nas travessas quando estavam fazendo os discos)
Quanto mais complexo o array raid, mais complexo é o software no controlador/implementação; Já vi tantos controladores raid matarem arrays quanto discos com falha matarem arrays. Tenho visto discos individuais girarem por anos e anos e anos – a maioria faz isso, na verdade. O sistema mais confiável que já tive foi uma caixa sem nada redundante que nunca apresentou falha de componente. Já vi muitos UPSs, ataques e redundantes (inserir componentes aleatórios) causarem falhas porque tornaram o sistema mais complexo o suficiente para que a complexidade fosse a fonte da falha.
Você paga seu dinheiro, você se arrisca... A questão é:
Responder3
Eu teria que discordar do CHopper3. Como existem apenas 4 unidades nesta situação, seus recursos de falha são os mesmos (2 unidades) em qualquer cenário, exceto no ataque 10, se acontecer de você perder as 2 unidades erradas, você terá um problema real. Além disso, há definitivamente um benefício adicional em ter um sobressalente global para seus outros RAIDs.
Responder4
Algumas outras coisas também precisam ser consideradas. Qual o tamanho/rápido de cada uma das unidades? Unidades SATA de 1 TB podem levar uma eternidade e um dia para reconstruir o hotspare em um RAID5, deixando uma grande janela aberta para uma falha na segunda unidade.
Você diz que o desempenho não é um problema, mas vi alguns impactos consideráveis no desempenho durante uma reconstrução do RAID5 (especialmente em gravações).