Configuración de unidad recomendada para un servidor web

Question 1

Trabajo para una importante empresa de hosting, y lo más común que veo en mi segmento empresarial (no necesariamente lo que recomiendo, pero lo que veo), suponiendo que el servidor es independiente/utiliza almacenamiento local, es una matriz de sistema operativo RAID 1. y una matriz de datos RAID5.

Ahora, a medida que los discos duros crecen, RAID 5 realmente se vuelve menos ideal, ya que la probabilidad de alcanzar un URE durante la reconstrucción de un solo disco es bastante alta.

Pero como parece que estás preguntando específicamente sobre la unidad del sistema operativo, sí, RAID 1 es estándar y generalmente suficiente, a menos que vayas a ejecutar otras aplicaciones desde esa unidad.

Answer

Trabajo para una importante empresa de hosting, y lo más común que veo en mi segmento empresarial (no necesariamente lo que recomiendo, pero lo que veo), suponiendo que el servidor es independiente/utiliza almacenamiento local, es una matriz de sistema operativo RAID 1. y una matriz de datos RAID5.

Ahora, a medida que los discos duros crecen, RAID 5 realmente se vuelve menos ideal, ya que la probabilidad de alcanzar un URE durante la reconstrucción de un solo disco es bastante alta.

Pero como parece que estás preguntando específicamente sobre la unidad del sistema operativo, sí, RAID 1 es estándar y generalmente suficiente, a menos que vayas a ejecutar otras aplicaciones desde esa unidad.

Question 2

Opero un centro de datos y soy el CTO de una operación de hosting de buen tamaño. INSTAMOS ENCARECIDAMENTE A LA GENTE A QUE NUNCA USE RAID 5.

UTILICE UN BUEN SAN SIEMPRE QUE SEA POSIBLE

RAID5 usa SÓLO UNA unidad de paridad por banda y muchas matrices RAID5 son 5 (si sus conteos son diferentes, ajuste los cálculos adecuadamente) unidades (4 de datos y 1 de paridad, aunque no es una sola unidad que mantenga toda la paridad como en RAID 3 & 4 pero sigue leyendo).

RAID 5 ES UN DESPERDICIO PERO TAMBIÉN LO ES RAID 10 y 1: Si tiene 10 unidades o digamos 20 GB cada una para 200 GB, RAID5 utilizará el 20 % para la paridad (suponiendo que lo configure como dos conjuntos de 5 unidades), por lo que tendrá 160 GB de almacenamiento.

Ahora bien, dado que RAID10, al igual que la duplicación (RAID1), utiliza 1 (o más) unidad duplicada para cada unidad principal, está utilizando el 50% para redundancia, por lo que para obtener los mismos 160 GB de almacenamiento necesitará 8 pares o unidades de 16 a 20 GB, que es por qué RAID5 es tan popular. Esta introducción es sólo para poner las cosas en perspectiva.

RAID5 es físicamente un conjunto de bandas como RAID0 pero con recuperación de datos incluida. RAID5 reserva un bloque de disco de cada bloque de franja para datos de paridad. El bloque de paridad contiene un código de corrección de errores que puede corregir cualquier error en el bloque RAID5; de hecho, se usa en combinación con los bloques de datos restantes para recrear cualquier bloque faltante porque una unidad falló. La innovación de RAID5 sobre RAID3 y RAID4 es que la paridad se distribuye por turnos para que pueda haber lectura independiente de diferentes bloques de las distintas unidades. Esta es la razón por la que RAID5 se volvió más popular que RAID3 y RAID4, que deben leer sincrónicamente el mismo bloque de todas las unidades juntas. Entonces, si Drive2 falla, los bloques 1,2,4,5,6 y 7 son bloques de datos en esta unidad y los bloques 3 y 8 son bloques de paridad en esta unidad. Eso significa que la paridad en la Unidad 5 se usará para recrear el bloque de datos del Disco 2 si se solicita el bloque 1 antes de que una nueva unidad reemplace a la Unidad 2 o durante la reconstrucción del nuevo reemplazo de la Unidad 2. Del mismo modo, la paridad en Drive1 se utilizará para reparar el bloque 2 y la paridad en Drive3 reparará el bloque 4, etc. Para el bloque 2, todos los datos están seguros en las unidades restantes, pero durante la reconstrucción del reemplazo de Drive2 se calculará un nuevo bloque de paridad a partir de los datos del bloque 2 y se escribirán en la unidad 2.

La PENALIDAD DE LECTURA-ESCRITURA DEL RAID 5:Ahora, cuando se lee un bloque de disco de la matriz, el software/firmware RAID calcula qué bloque RAID contiene el bloque de disco, en qué unidad se encuentra el bloque de disco y qué unidad contiene el bloque de paridad para ese bloque RAID y lee SOLO una unidad de datos. Devuelve el bloque de datos. Si luego modifica el bloque de datos, vuelve a calcular la paridad restando el bloque antiguo y agregando la nueva versión, luego, en dos operaciones separadas, escribe el bloque de datos seguido del nuevo bloque de paridad. Para hacer esto, primero debe leer el bloque de paridad de cualquier unidad que contenga la paridad para ese bloque de banda y volver a leer los datos no modificados para el bloque actualizado de la unidad original.Esta lectura-lectura-escritura-escritura se conoce como penalización de escritura RAID5, ya que estas dos escrituras son secuenciales y sincrónicas; la llamada al sistema de escritura no puede regresar hasta que se complete la relectura y ambas escrituras, por seguridad, por lo que escribir en RAID5 es hasta un 50 % más lento. que RAID0 para una matriz de la misma capacidad. (Algunos software RAID5 evitan la relectura manteniendo una copia sin modificar del bloque original en la memoria).

RAID10 es una de las combinaciones posibles de RAID1 (duplicación) y RAID0 (striping). Solía haber confusión sobre lo que significaban RAID01 o RAID10 y los diferentes proveedores de RAID los definían de manera diferente. Hace unos cinco años propuse el siguiente lenguaje estándar que parece haberse afianzado. Cuando se dividen N pares reflejados, esto se denomina RAID10 porque la duplicación (RAID1) se aplica antes de la división (RAID0). La otra opción es crear dos conjuntos de bandas y reflejarlos entre sí, esto se conoce como RAID01 (porque el RAID0 se aplica primero). En un sistema RAID01 o RAID10, todos y cada uno de los bloques de disco están completamente duplicados en el espejo de su unidad. En cuanto al rendimiento, tanto RAID01 como RAID10 son funcionalmente equivalentes. La diferencia surge durante la recuperación, donde RAID01 sufre algunos de los mismos problemas que describiré que afectan a RAID5, mientras que RAID10 no.

Ahora, si una unidad en la matriz RAID5 muere, se elimina o se apaga, los datos se devuelven leyendo los bloques de las unidades restantes y calculando los datos faltantes usando la paridad, asumiendo que la unidad inactiva no es la unidad de bloque de paridad para ese RAID. bloquear. Tenga en cuenta que se necesitan 4 lecturas físicas para reemplazar el bloque de disco faltante (para una matriz de 5 unidades) en cuatro de cada cinco bloques de disco, lo que genera una degradación del rendimiento del 64 % hasta que se descubre el problema y se puede asignar una nueva unidad para comenzar. recuperación. El rendimiento se degrada aún más durante la recuperación porque se accede activamente a todas las unidades para reconstruir la unidad de reemplazo (ver más abajo).

Si una unidad en la matriz RAID10 muere, los datos se devuelven desde su unidad espejo en una sola lectura con solo una reducción de rendimiento menor (6,25 % en promedio para una matriz de 4 pares en su conjunto) cuando se necesitan dos bloques no contiguos del par dañado. (ya que los dos bloques no se pueden leer en paralelo desde ambas unidades) y ninguna otra cosa.

Uno empieza a tener una idea de lo que está pasando y de por qué no me gusta RAID5, pero, como dicen en los infomerciales nocturnos, hay más.

¿Qué pasa además de un poco de rendimiento que no sé que me estoy perdiendo?

Bien, eso nos lleva a la última pregunta del día, que es: ¿Cuál es el problema con RAID5? Recupera una unidad fallida, ¿verdad? Así que las escrituras son más lentas, no escribo lo suficiente como para preocuparme y el caché también ayuda mucho, ¡tengo MUCHO caché! El problema es que a pesar de la confiabilidad mejorada de las unidades modernas y los códigos de corrección de errores mejorados en la mayoría de las unidades, e incluso a pesar de los 8 bytes adicionales de corrección de errores que EMC coloca en cada bloque de disco de la unidad Clariion (si tiene la suerte de usar sistemas EMC ), es muy posible que una unidad se deteriore y comience a devolver basura. Esto se conoce como falla parcial de los medios. Ahora los controladores SCSI reservan varios cientos de bloques de disco para ser reasignados para reemplazar los sectores que se desvanecen con otros no utilizados, pero si la unidad está funcionando, estos no durarán mucho y se agotarán y SCSI NO informa errores corregibles al sistema operativo. Por lo tanto, no sabrá que la unidad se está volviendo inestable hasta que sea demasiado tarde y no haya más sectores de reemplazo y la unidad comience a devolver basura. [Tenga en cuenta que las unidades IDE/ATA recientemente populares no incluyen (TMK) la reasignación de sectores defectuosos en su hardware, por lo que la basura se devuelve mucho antes.] Cuando una unidad devuelve basura, dado que RAID5 NUNCA verifica la paridad en la lectura (RAID3 y RAID4 Por cierto, ambos funcionan mejor para las bases de datos que RAID5 para arrancar) cuando escriba el sector basura, se calculará la paridad de basura y se perderá la integridad de RAID5. De manera similar, si una unidad falla y una de las unidades restantes tiene fallas, el reemplazo se reconstruirá con basura y también se propagará el problema a dos bloques en lugar de solo uno.

¿Necesitar más? Durante la recuperación, el rendimiento de lectura de una matriz RAID5 se degrada hasta en un 80%. Algunas matrices avanzadas le permiten configurar la preferencia más hacia la recuperación o hacia el rendimiento. Sin embargo, hacerlo aumentará el tiempo de recuperación y aumentará la probabilidad de perder una segunda unidad de la matriz antes de que se complete la recuperación, lo que provocará una pérdida catastrófica de datos. RAID10, por otro lado, solo recuperará una unidad de 4 o más pares y el rendimiento SÓLO de las lecturas del par en recuperación se degradará, lo que hará que el rendimiento de la matriz en general alcance solo alrededor del 20%. Además, no se utiliza ningún tiempo de cálculo de paridad durante la recuperación: es una copia de datos directa.

¿Qué pasa con eso de perder un segundo disco? Bueno, con RAID10 no hay peligro a menos que el espejo que se está recuperando también falle y eso es un 80% o más menos probable que cualquier otra unidad en una matriz RAID5 falle. Y dado que la mayoría de las fallas de múltiples unidades son causadas por defectos de fabricación no detectados, puede hacer que incluso esta posibilidad sea extremadamente pequeña asegurándose de duplicar cada unidad con una de un número de lote de diferente fabricante. ("Oh", dirás, "¡este escenario no parece probable!" Pooh, perdimos 50 unidades en dos semanas cuando un lote de 200 unidades de IBM comenzó a fallar. IBM descubrió que un solo lote de unidades tendría sus cojinetes de husillo Se congeló después de tantas horas de funcionamiento. Afortunadamente, debido en parte a RAID10 y en parte a un esfuerzo hercúleo por parte de los técnicos de DG y nuestra propia gente durante 2 semanas, no se perdió ningún dato. SIN EMBARGO, un sistema de archivos RAID5 fue una pérdida total después de que falló una segunda unidad. durante la recuperación. Afortunadamente todo estaba grabado.

¿Conclusión? Por seguridad y rendimiento, elija RAID10 primero, RAID3 segundo, RAID4 tercero y RAID5 al final. La razón original para las especificaciones RAID2-5 fue que el alto costo de los discos hacía que RAID1, la duplicación, no fuera práctica. ¡Ese ya no es el caso! Las unidades tienen precios de productos básicos, incluso las unidades más rápidas son más baratas en dólares absolutos que las unidades de entonces y el costo por MB es una pequeña fracción de lo que era. ¿RAID5 ya tiene algún sentido? Obviamente creo que no.

Para poner las cosas en perspectiva: si una unidad cuesta $1000US (y la mayoría son mucho menos costosas que eso), entonces cambiar de una matriz RAID10 de 4 pares a una matriz RAID5 de 5 unidades ahorrará 3 unidades o $3000US. ¿Cuál es el costo de las horas extras, el desgaste para los técnicos, administradores de bases de datos, gerentes y clientes, incluso si se trata de un susto de recuperación? ¿Cuál es el costo de un rendimiento reducido y posiblemente de una satisfacción del cliente reducida? Finalmente, ¿cuál es el costo de la pérdida de negocios si los datos son irrecuperables?

Copiado del sitio web de BAARF, pero vale la pena mencionarlo con seguridad.

Utilice RAID 10 siempre que sea posible: gaste en el disco adicional.

Answer