ошибка zfs позади LSI raidcontroller

Question 1

zfs scrubэто "система, которая будет проверять ошибки zfs". Это займет столько времени, сколько потребуется для чтения всех данных, хранящихся в томе (идет в последовательном порядке txg, поэтому может потребоваться много поиска, в зависимости от того, насколько заполнен пул и как были записаны данные). После запуска zfs statusпокажет некоторую оценку. Запуск очистки можно остановить.

Если вы хотите что-то периодически проверять zpool status, самый простой способ — запускать что-то вроде zpool status | grep -C 100 Statusperiodic (раз в 6 часов) и отправлять по электронной почте вывод, если таковой имеется. Вы, вероятно, могли бы найти плагин для вашей любимой системы мониторинга, например, nagios. Или было бы довольно просто написать его самостоятельно.

Просто горячая замена диска не запустит resilver. Вам придется бежать, zfs replaceчтобы это произошло.

Ошибка чтения, которую вы видите, может быть просто какой-то неполадкой контроллера. Несмотря на то, что это корпоративное оборудование, эти контроллеры (HW RAID) иногда ведут себя странно. И эти ошибки могут быть, например, результатом слишком долгой команды — контроллер занят чем-то еще. Вот почему я стараюсь держаться от них подальше, если в этом нет необходимости.

Я бы проверил данные SMART на диске (см. man smartctl) и очистил пул. Если оба выглядят нормально, очистите ошибки и не трогайте пул. Потому что если пул почти заполнен, чтение всех данных во время resilver может фактически вызвать еще одну ошибку. Начинайте паниковать, как только снова увидите ошибки на том же диске ;).

Кстати, для лучшей производительности следует использовать n^2+2 дисков в виртуальных устройствах RAIDZ2.

Answer

zfs scrubэто "система, которая будет проверять ошибки zfs". Это займет столько времени, сколько потребуется для чтения всех данных, хранящихся в томе (идет в последовательном порядке txg, поэтому может потребоваться много поиска, в зависимости от того, насколько заполнен пул и как были записаны данные). После запуска zfs statusпокажет некоторую оценку. Запуск очистки можно остановить.

Если вы хотите что-то периодически проверять zpool status, самый простой способ — запускать что-то вроде zpool status | grep -C 100 Statusperiodic (раз в 6 часов) и отправлять по электронной почте вывод, если таковой имеется. Вы, вероятно, могли бы найти плагин для вашей любимой системы мониторинга, например, nagios. Или было бы довольно просто написать его самостоятельно.

Просто горячая замена диска не запустит resilver. Вам придется бежать, zfs replaceчтобы это произошло.

Ошибка чтения, которую вы видите, может быть просто какой-то неполадкой контроллера. Несмотря на то, что это корпоративное оборудование, эти контроллеры (HW RAID) иногда ведут себя странно. И эти ошибки могут быть, например, результатом слишком долгой команды — контроллер занят чем-то еще. Вот почему я стараюсь держаться от них подальше, если в этом нет необходимости.

Я бы проверил данные SMART на диске (см. man smartctl) и очистил пул. Если оба выглядят нормально, очистите ошибки и не трогайте пул. Потому что если пул почти заполнен, чтение всех данных во время resilver может фактически вызвать еще одну ошибку. Начинайте паниковать, как только снова увидите ошибки на том же диске ;).

Кстати, для лучшей производительности следует использовать n^2+2 дисков в виртуальных устройствах RAIDZ2.

Question 2

В этом случае я бы сделал то, что говорит ZFS.Пожалуйста, выполните очистку.

Я чищу свои системы еженедельно по графику. Я также используюzfswatcherдемон для мониторинга работоспособности установок Linux ZFS.

Ваш массив ZFS, вероятно, не настроен, поэтому есть некоторые значения, которые могут помочь улучшить производительность очистки, но на этом этапе вам следует просто запустить ее.

А что касается другого вопроса, то ваша горячая замена, вероятно, не будет делать того, чего вы ожидаете... См. тираду ниже.

тирада:

Наличие нескольких виртуальных дисков RAID-0 за аппаратным контроллером — плохая идея!

У вас худшее из обоих миров. Восстанавливаемость и проверка ошибок ограничены. Неисправный диск по сути является неисправным виртуальным диском, и есть последствия горячей замены. Допустим, вы удаляете диск(и) из-за проблем. Вам, вероятно, придется создать новый виртуальный диск или вы можете получить другой список дисков.

В определенный момент лучше приобрести настоящий HBA и запустить диски как транзитные устройства (без метаданных RAID) илипросто запустите ZFS поверх виртуальных устройств, защищенных аппаратными массивами.Например, запустите RAID-6 на вашем контроллере и установите ZFS поверх. Или запустите несколько групп RAID-X и сделайте так, чтобы ZFS зеркалировала или чередовала полученные vdev.

Answer