Что tw_cli от 3Ware подразумевает под «DEGRADED» диском и «ECC-ERROR»?

Question 1

Ошибка ECC означает, что на диске есть по крайней мере один нечитаемый сектор. Однако, если вам повезет, этот сектор может фактически не использоваться файловой системой, расположенной на этом томе, поэтому вы все равно сможете скопировать данные из массива в этом состоянии.

Также есть несколько вариантов игнорирования ошибок ECC во время перестройки:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Однако использование этих опций означает, что полоса RAID, затронутая плохим сектором, будет повреждена (не уверен, что именно сделает карта в этом случае — она может заменить всю полосу нулями или даже случайными данными), поэтому «восстановленный» массив может фактически иметь необнаруживаемые повреждения (если затронутая полоса находилась в середине какого-то файла данных). Копирование данных из массива в какое-то другое место перед попыткой перестроения может быть безопаснее (по крайней мере, вы должны получить ошибки при попытке чтения плохой области).

Вам следует настроить запланированную проверку массива, чтобы выявлять нечитаемые сектора раньше и иметь возможность заменить диск, который только начал выходить из строя.

Answer

Ошибка ECC означает, что на диске есть по крайней мере один нечитаемый сектор. Однако, если вам повезет, этот сектор может фактически не использоваться файловой системой, расположенной на этом томе, поэтому вы все равно сможете скопировать данные из массива в этом состоянии.

Также есть несколько вариантов игнорирования ошибок ECC во время перестройки:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Однако использование этих опций означает, что полоса RAID, затронутая плохим сектором, будет повреждена (не уверен, что именно сделает карта в этом случае — она может заменить всю полосу нулями или даже случайными данными), поэтому «восстановленный» массив может фактически иметь необнаруживаемые повреждения (если затронутая полоса находилась в середине какого-то файла данных). Копирование данных из массива в какое-то другое место перед попыткой перестроения может быть безопаснее (по крайней мере, вы должны получить ошибки при попытке чтения плохой области).

Вам следует настроить запланированную проверку массива, чтобы выявлять нечитаемые сектора раньше и иметь возможность заменить диск, который только начал выходить из строя.

Question 2

Я никогда не сталкивался с тем, чтобы физический диск (p0) переходил в состояние DEGRADED, однако вы можете вернуть диск ECC-ERROR или даже диск DEGRADED, удалив их с помощью

/c0 p1 remove

и затем выдать повторное сканирование

/c0 rescan

поместите их обратно в рейдовый отряд через

maint rebuild c0 u0 p1

SATA-диски, которые выходили из строя из-за ошибки ECC-ERROR, мне удавалось восстановить хотя бы на несколько часов, прежде чем они снова выходили из строя.

Answer

Я никогда не сталкивался с тем, чтобы физический диск (p0) переходил в состояние DEGRADED, однако вы можете вернуть диск ECC-ERROR или даже диск DEGRADED, удалив их с помощью

/c0 p1 remove

и затем выдать повторное сканирование

/c0 rescan

поместите их обратно в рейдовый отряд через

maint rebuild c0 u0 p1

SATA-диски, которые выходили из строя из-за ошибки ECC-ERROR, мне удавалось восстановить хотя бы на несколько часов, прежде чем они снова выходили из строя.

Question 3

Очень вероятно, что ваши данные пропали. Ошибка ECC означает неустранимую ошибку при чтении с этого диска.

Если у вас нет резервной копии, вы можете попробовать сделать дамп текущего состояния массива. Это может быть возможно, поскольку контроллер не знает, были ли потеряны данные или просто пустая область (у него нет никакой информации о файловой системе).

Answer

Очень вероятно, что ваши данные пропали. Ошибка ECC означает неустранимую ошибку при чтении с этого диска.

Если у вас нет резервной копии, вы можете попробовать сделать дамп текущего состояния массива. Это может быть возможно, поскольку контроллер не знает, были ли потеряны данные или просто пустая область (у него нет никакой информации о файловой системе).

Что tw_cli от 3Ware подразумевает под «DEGRADED» диском и «ECC-ERROR»?

решение1

решение2

решение3

Связанный контент