
Contexto
Recientemente noté que mi freeNAS me decía que tenía problemas con una unidad. Tenía alrededor de 16 sectores defectuosos, pasé por las pruebas inteligentes, etc. Compré una unidad nueva, de la misma capacidad, fui a instalarla y, por alguna razón, un adaptador de corriente para una de las otras unidades se soltó parcialmente, así que me quedé con 4 de 6 unidades en la matriz RAID Z2, o básicamente sin redundancia.
La matriz comenzó a recuperar su color, nunca se completó y siempre me decía que había demasiados errores (14k+). Descubrí la parte del adaptador de corriente porque era poco probable que fallaran dos unidades, especialmente si la segunda fallaba justo después de abrir la caja. Lo volví a enchufar y ZFS no pudo hacer nada con él.
Terminé reemplazando la unidad anterior (la misma unidad pero ZFS no pudo reconocerla de alguna manera, coincidiendo en gpt/smartctl/zpool) consigo misma, y ZFS volvió a recuperar la plata.
Por supuesto, esto todavía tiene los mismos errores, ahora también aparece una tercera unidad que se vuelve a platear sin ningún motivo, hice algunas limpiezas y limpiezas de ZFS, y todavía se vuelve a platear todo el día todos los días, falla, borro, revisito un poco más y no va a ninguna parte.
Más allá del hecho de que estoy profundamente decepcionado por la incapacidad de ZFS para recuperarse de esta situación de riesgo relativamente bajo en la que, de hecho, solo una unidad falló y fue reemplazada rápidamente, el NAS y su principal y única unidad aún son utilizables, y tenía De todos modos, hice una copia de seguridad después de la primera falla del disco.
Pregunta
¿Hay alguna manera de hacer que ZFS comprenda que este grupo está bien y que debería simplemente volver a platear las dos unidades nuevas (una de las cuales es una vieja que limpié para ayudar a ZFS a saber que podía usarla) y dejar de decirme? sobre esos errores?
¿Como un resilver -force -scrub_later -everything_is_obviously_fine -o_i_couldnt_possively_use_the_share -just_mark_it_all_online -lets_get_back_to_actual_work_now?
Trepador
Estoy un poco preocupado porque en este momento me pretende que está resolviendo 3 de 6 unidades en un grupo raidz2 que claramente tiene datos utilizables, lo cual dudo seriamente que alguien pueda hacer.
Espero que pronto aumente hasta 4 unidades, o tal vez las 6, por qué no, recreando todos mis datos a partir de la acumulación de polvo magnético residual del aire que rodea los discos duros.
Se agradece cualquier sugerencia. ¡Gracias!
Respuesta1
Nunca obtuve una respuesta y las cosas empeoraron antes de mejorar. En general, después de al menos una docena de restauraciones, limpiezas, borrados, eliminación de archivos que contenían errores y reinicios, terminó nuevamente en línea.
Con todo, creo que esto significa principalmente que a ZFS le gusta dar grandes advertencias y el estado de zpool no está exactamente claro, ya que resilienciar 3 de 6 unidades en un raidz2 no era físicamente posible para uno de ellos.
Pero sobre todo, mientras sus datos todavía estén disponibles y todo se vea bien desde el punto de vista del uso compartido, probablemente terminará bien como sucedió aquí, simplemente continúe reiniciando, limpiando, limpiando y tratando archivos que tienen errores de suma de comprobación.