Error de zfs detrás del controlador raid LSI

Question 1

zfs scrubes el "sistema que comprobará si hay errores de zfs". Tomará el tiempo necesario para leer todos los datos almacenados en el volumen (en orden secuencial de txg, por lo que puede buscar mucho, dependiendo de qué tan lleno esté el grupo y cómo se escribieron los datos). Una vez iniciado, zfs statusmostrará alguna estimación. Se puede detener el fregado en ejecución.

Si desea verificar algo periódicamente zpool status, la forma más sencilla sería ejecutar algo así zpool status | grep -C 100 Statusperiódicamente (una vez cada 6 horas) y enviar por correo electrónico el resultado, si corresponde. Probablemente puedas encontrar un complemento para tu sistema de monitoreo favorito, como nagios. O sería bastante sencillo escribirlo usted mismo.

Simplemente cambiar la unidad en caliente no activará la recuperación. Tendrás que correr zfs replacepara que eso suceda.

El error de lectura que estás viendo también puede ser algún tipo de error en el controlador. Aunque se trata de un hardware empresarial, estos controladores (HW RAID) a veces se comportan de forma extraña. Y estos errores pueden, por ejemplo, ser el resultado de que un comando demore demasiado: el controlador está ocupado con lo que sea. Por eso trato de mantenerme alejado de ellos a menos que sea necesario.

Yo iría a verificar los datos SMART en el disco (ver man smartctl) y limpiar el grupo. Si ambos se ven bien, borre los errores y no juegue con su grupo. Porque si el grupo está casi lleno, leer todos los datos durante la recuperación puede provocar otro error. Empiece a entrar en pánico una vez que vuelva a ver errores en la misma unidad;).

por cierto. Para obtener el mejor rendimiento, debe utilizar n^2+2 unidades en RAIDZ2 vdevs.

Answer

zfs scrubes el "sistema que comprobará si hay errores de zfs". Tomará el tiempo necesario para leer todos los datos almacenados en el volumen (en orden secuencial de txg, por lo que puede buscar mucho, dependiendo de qué tan lleno esté el grupo y cómo se escribieron los datos). Una vez iniciado, zfs statusmostrará alguna estimación. Se puede detener el fregado en ejecución.

Si desea verificar algo periódicamente zpool status, la forma más sencilla sería ejecutar algo así zpool status | grep -C 100 Statusperiódicamente (una vez cada 6 horas) y enviar por correo electrónico el resultado, si corresponde. Probablemente puedas encontrar un complemento para tu sistema de monitoreo favorito, como nagios. O sería bastante sencillo escribirlo usted mismo.

Simplemente cambiar la unidad en caliente no activará la recuperación. Tendrás que correr zfs replacepara que eso suceda.

El error de lectura que estás viendo también puede ser algún tipo de error en el controlador. Aunque se trata de un hardware empresarial, estos controladores (HW RAID) a veces se comportan de forma extraña. Y estos errores pueden, por ejemplo, ser el resultado de que un comando demore demasiado: el controlador está ocupado con lo que sea. Por eso trato de mantenerme alejado de ellos a menos que sea necesario.

Yo iría a verificar los datos SMART en el disco (ver man smartctl) y limpiar el grupo. Si ambos se ven bien, borre los errores y no juegue con su grupo. Porque si el grupo está casi lleno, leer todos los datos durante la recuperación puede provocar otro error. Empiece a entrar en pánico una vez que vuelva a ver errores en la misma unidad;).

por cierto. Para obtener el mejor rendimiento, debe utilizar n^2+2 unidades en RAIDZ2 vdevs.

Question 2

Haría lo que ZFS te dice que hagas en este caso.Por favor, haz una limpieza.

Limpio mis sistemas semanalmente según un cronograma. Yo también uso elzfswatcherdemonio para monitorear el estado de las instalaciones de Linux ZFS.

Es probable que su matriz ZFS no esté sintonizada, por lo que existen algunos valores que pueden ayudar a mejorar el rendimiento de la depuración, pero en este punto, simplemente debería ejecutarlo.

Y para la otra pregunta, su intercambio en caliente probablemente no hará lo que espera... Vea la queja a continuación.

despotricar:

¡Tener un montón de unidades virtuales RAID-0 detrás de un controlador de hardware es una mala idea!

Tienes lo peor de ambos mundos. La recuperabilidad y la verificación de errores son limitadas. Un disco fallido es esencialmente una unidad virtual fallida y existen implicaciones de intercambio en caliente. Digamos que retira los discos en cuestión. Probablemente necesite crear un nuevo disco virtual o terminar con una enumeración de unidades diferente.

En cierto punto, es mejor obtener un HBA real y ejecutar los discos como dispositivos de paso (sin metadatos RAID) osimplemente ejecute ZFS sobre vdevs protegidos por matrices de hardware.Por ejemplo, ejecute un RAID-6 en su controlador e instale ZFS en la parte superior. O ejecute varios grupos RAID-X y haga que ZFS refleje o separe los vdev resultantes.

Answer