FreeNAS: la matriz ZFS 'elimina' varias unidades

FreeNAS: la matriz ZFS 'elimina' varias unidades

Tenemos una situación un poco alarmante aquí. Espero que alguien pueda ayudarme a descubrir qué está pasando.

Fondo

Construí un servidor ZFS que ejecuta FreeNAS para respaldo y almacenamiento hace unos cinco años, comenzando con una matriz RAID-Z2 de 6 discos de 8 TB. Esto sigue funcionando bien hasta el día de hoy. El dispositivo no tiene funciones adicionales más allá de proporcionar recursos compartidos cifs.

El servidor pasa la mayor parte del tiempo fuera de línea (ya que consume mucha energía), encendiéndose ocasionalmente para hacer copias de seguridad, copiar archivos, limpiar volúmenes y todo eso.

Hace unos años decidí ampliar esta configuración (como estaba previsto) con otros seis discos, también en RAID Z2. Esta matriz, conectada al mismo hardware que la primera, ahora ha "eliminado" algunos discos individuales (uno a la vez), que reemplacé. Todos estos discos pasan escaneos de superficie, por lo que supuse que había algún tipo de incompatibilidad con ZFS.

Unidades eliminadas

La semana pasada lo encendí nuevamente y de la nada decidió quitar dos unidades. Como este es el máximo que se puede perder sin perder el volumen, inmediatamente pedí dos nuevos, hice una prueba de lectura completa con Western Digital Data Lifeguard (que ambos pasaron) y reemplacé los viejos. La matriz volvió a brillar y fue etiquetada como "SALUDABLE" nuevamente. Las unidades extraídas también las probé con DLG y, sorprendentemente, también pasaron. Una vez completada la restauración, procedí a ejecutar copias de seguridad en este volumen.

EL PROBLEMA

Acabo de descubrir que CUATRO de seis unidades han sido eliminadas, lo que hace que el volumen NO DISPONIBLE en lugar de DEGRADADO. Esto incluye las dos unidades nuevas y otras dos, una de las cuales hace unos cinco días también causó problemas temporalmente pero parecía haberse recuperado por sí sola. El cuarto eliminado parece haber funcionado sin problemas hasta ahora.

Mi pregunta es:¿Qué pudo haber causado esto?(y, por supuesto, ¿cómo puedo restaurar el volumen y, finalmente, evitar que esto vuelva a suceder?)

Tengo algunas vías que estoy investigando, agradecería cualquier comentario al respecto :)

Fuerza: Como esto sucedió bajo presión, me pregunto si podría ser un problema de energía. La fuente de alimentación es una edición PCGH Seasonic G-Series G-550W, que debería ser suficiente (los discos duros también están en iirc de encendido escalonado). Lo que también habla en contra de esto es que ambos arreglos generalmente se limpian al mismo tiempo y la restauración de dos unidades en el volumen ahora NO DISPONIBLE se completó sin problemas. Y hace unos días copié algunos archivos grandes en la primera matriz, lo que tampoco causó problemas. Si una matriz de 6x8 TB puede mantenerse en buen estado bajo presión, ¿por qué la otra matriz no podría hacerlo en las mismas circunstancias? Tenga en cuenta que no se han sometido a tensión simultáneamente y ha habido períodos de tiempo más largos antes en los que no hubo problemas con ambos volúmenes.

Temperatura: Las dos unidades más problemáticas están ubicadas en un segundo compartimento para unidades que se encuentra detrás de la principal. Aunque el aire que llega a estos tendrá una temperatura mayor, también agregué un ventilador detrás de la segunda bahía que succiona activamente el aire desde allí (que se canaliza específicamente alrededor de esta bahía por medio de divisores sellados), por lo que debería haber un mayor flujo de aire.

Me temo que todavía no he podido configurar el monitoreo de temperatura del disco duro (a menos que haya una función predeterminada que no conozco). Se controla la temperatura de la CPU, pero por supuesto no ayuda a este respecto. Los discos problemáticos también han desaparecido de la descripción general de informes, por lo que ni siquiera puedo ver su historial de E/S en este momento.

Controlador: La segunda matriz está conectada a un controlador PCI Express SATA de Delock. Me pregunto si esto tal vez no sea capaz de hacer frente al rendimiento de datos. En este caso, no estoy seguro de cómo podría probarlo. Y tampoco estoy seguro de por qué se eliminaron cuatro unidades y otras dos en la misma matriz han seguido funcionando normalmente hasta este momento (informadas como 'EN LÍNEA').

Cables SATA: Estos todavía tengo que probarlos, así que por confirmar. Los cables están bien guardados y no se doblan mucho, pero, por supuesto, pueden fallar con el tiempo. Sin embargo, la posibilidad de que cuatro unidades no estén disponibles en la misma matriz el mismo día debido al cableado lo coloca muy abajo en mi lista de sospechosos.

Hardware:

  • tablero principal: ESTACIÓN DE TRABAJO MSI C236M (con seis puertos SATA, en uso por la matriz n.° 1)
  • UPC: Intel Xeon E3-1275v5
  • Memoria: Kingston KVR21E15D8K2 x2 (ECC)
  • fuente de alimentación: Seasonic Serie G G-550W Edición PCGH
  • Segundo controlador: Delock Tarjeta PCI Express x2 -> 10 x SATA III interno - LP
  • Matriz #1(6x 8TB en RAID-Z2, funcionando estable desde hace 5 años):
    • WD80EFZX x3
    • ST8000VN0002 x2
    • ST8000DM002x1
  • Matriz #2(6x 8TB en RAID-Z2):
    • WD80EFAX (sin problemas)
    • ST8000VN0022 (una vez eliminado antes, DLG pasó y actualmente funciona normalmente)
    • WD80EFAX x2 (unidades existentes, ahora también eliminadas)
    • WD80EFZZ x2 (unidades de repuesto nuevas, ahora eliminadas)
    • ST8000VN0022 x2 (eliminado hace unos días, reemplazado por el WD80EFZZ x2)

información relacionada