ошибки жесткого диска SATA

Question 1

По моему опыту, ошибки, которые вы видите, на самом деле являются аппаратными ошибками, отраженными в программном обеспечении. Сообщение «потеря записи страницы из-за ошибки ввода-вывода» я видел на плохих жестких дисках, и оно ведет себя так же, как вы описываете, когда пытаетесь выполнить fsck. Это почти наверняка настоящая аппаратная ошибка.

Вам следует проверить вывод smartctl, чтобы узнать, в чем может заключаться проблема.

smartctl --attributes /dev/sdb

Это даст вам вывод, подобный этому:

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер ревизии структуры данных атрибутов SMART: 16
Атрибуты SMART конкретного поставщика с пороговыми значениями:
ID# ИМЯ_АТРИБУТА ЗНАЧЕНИЕ ФЛАГА НАИБОЛЕЕ ЗНАЧЕНИЕ ТИП ПОРОГА ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 Предварительная ошибка Всегда - 0
  3 Spin_Up_Time 0x0003 212 186 021 Предварительный сбой Всегда - 4358
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Всегда - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 Предварительная ошибка Всегда - 0
  7 Seek_Error_Rate 0x000f 200 200 051 Предварительная ошибка Всегда - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age Всегда - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 Предварительная ошибка Всегда - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 Предварительная ошибка Всегда - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 86
194 Температура_Цельсия 0x0022 104 001 000 Возраст_старости Всегда - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Всегда - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 Предварительный сбой Оффлайн - 0

Вывод может быть загадочным, но я бы обратил пристальное внимание на Reallocated_Sector_Ct, поскольку он сообщает вам, что на жестком диске есть известные плохие сектора. Команда 'smartctl -a' даст гораздо больше данных. На плохом жестком диске, который у меня был некоторое время назад, в нижней части этого вывода находится 'SMART Error Log', в котором было несколько записей.

Answer

По моему опыту, ошибки, которые вы видите, на самом деле являются аппаратными ошибками, отраженными в программном обеспечении. Сообщение «потеря записи страницы из-за ошибки ввода-вывода» я видел на плохих жестких дисках, и оно ведет себя так же, как вы описываете, когда пытаетесь выполнить fsck. Это почти наверняка настоящая аппаратная ошибка.

Вам следует проверить вывод smartctl, чтобы узнать, в чем может заключаться проблема.

smartctl --attributes /dev/sdb

Это даст вам вывод, подобный этому:

=== НАЧАЛО ЧТЕНИЯ РАЗДЕЛА SMART DATA ===
Номер ревизии структуры данных атрибутов SMART: 16
Атрибуты SMART конкретного поставщика с пороговыми значениями:
ID# ИМЯ_АТРИБУТА ЗНАЧЕНИЕ ФЛАГА НАИБОЛЕЕ ЗНАЧЕНИЕ ТИП ПОРОГА ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate 0x000f 200 200 051 Предварительная ошибка Всегда - 0
  3 Spin_Up_Time 0x0003 212 186 021 Предварительный сбой Всегда - 4358
  4 Start_Stop_Count 0x0032 100 100 000 Old_age Всегда - 97
  5 Reallocated_Sector_Ct 0x0033 200 200 140 Предварительная ошибка Всегда - 0
  7 Seek_Error_Rate 0x000f 200 200 051 Предварительная ошибка Всегда - 0
  9 Power_On_Hours 0x0032 066 066 000 Old_age Всегда - 25420
 10 Spin_Retry_Count 0x0013 100 253 051 Предварительная ошибка Всегда - 0
 11 Calibration_Retry_Count 0x0013 100 253 051 Предварительная ошибка Всегда - 0
 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Всегда - 86
194 Температура_Цельсия 0x0022 104 001 000 Возраст_старости Всегда - 46
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Всегда - 0
197 Current_Pending_Sector 0x0012 200 200 000 Old_age Всегда - 0
198 Offline_Uncorrectable 0x0010 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Всегда - 0
200 Multi_Zone_Error_Rate 0x0009 200 200 051 Предварительный сбой Оффлайн - 0

Вывод может быть загадочным, но я бы обратил пристальное внимание на Reallocated_Sector_Ct, поскольку он сообщает вам, что на жестком диске есть известные плохие сектора. Команда 'smartctl -a' даст гораздо больше данных. На плохом жестком диске, который у меня был некоторое время назад, в нижней части этого вывода находится 'SMART Error Log', в котором было несколько записей.

Question 2

У вас произошла неисправимая ошибка чтения.

Error: UNC at LBA = 0x03800922 = 58722594

Данные, которые были в этом блоке, теперь утеряны.

Вам следует:

использовать зеркало в первую очередь. Корпоративные диски на самом деле предназначены для использования за зеркалом, и они скорее вернут ошибку чтения, чем будут очень стараться получить данные.
восстановить потерянные данные из резервных копий

У вас НЕТ НИКАКИХ ОПРАВДАНИЙ не использовать RAID (особенно если вы размещаете веб-сайты для клиентов!) — ОС не такая уж большая, вам не нужен для нее отдельный диск в системе с двумя дисками.

Answer

У вас произошла неисправимая ошибка чтения.

Error: UNC at LBA = 0x03800922 = 58722594

Данные, которые были в этом блоке, теперь утеряны.

Вам следует:

использовать зеркало в первую очередь. Корпоративные диски на самом деле предназначены для использования за зеркалом, и они скорее вернут ошибку чтения, чем будут очень стараться получить данные.
восстановить потерянные данные из резервных копий

У вас НЕТ НИКАКИХ ОПРАВДАНИЙ не использовать RAID (особенно если вы размещаете веб-сайты для клиентов!) — ОС не такая уж большая, вам не нужен для нее отдельный диск в системе с двумя дисками.

Question 3

Используете ли вы RAID-контроллер? Какой тип контроллера вы используете?

Одной из вещей (которая одновременно и разочаровывает, и поучительна) является растущая сегментация, которую производители HDD вводят на рынок SATA. Теперь есть диски для «малых предприятий/RAID использования» и «одиночных/настольных применений». SAS, похоже, продвигается на рынок «высокопроизводительных предприятий».

Ваша модель # — серия дисков WD RE3, разработанная для RAID-массивов. Мне сказали, что это означает, помимо прочего, что диск «сдастся» раньше (т. е. в течение 3–4 секунд) при попытке исправить ошибки, вместо того, чтобы пытаться снова и снова в течение более длительного периода времени. Ранний отказ сообщает об ошибке RAID-контроллеру, поэтому он может использовать другой диск для восстановления. Если вместо этого диск ждет дольше, RAID-контроллер выкинет диск из массива за то, что он не отвечает.

Неудачи должнывсе ещебыть редким, и не раз в год. Возможно, это другой аспект вашей установки? (У меня однажды была досадная схватка с кабелем SATA, теперь он установлен над моей дверью в качестве предупреждения другим кабелям ...)

Answer

Используете ли вы RAID-контроллер? Какой тип контроллера вы используете?

Одной из вещей (которая одновременно и разочаровывает, и поучительна) является растущая сегментация, которую производители HDD вводят на рынок SATA. Теперь есть диски для «малых предприятий/RAID использования» и «одиночных/настольных применений». SAS, похоже, продвигается на рынок «высокопроизводительных предприятий».

Ваша модель # — серия дисков WD RE3, разработанная для RAID-массивов. Мне сказали, что это означает, помимо прочего, что диск «сдастся» раньше (т. е. в течение 3–4 секунд) при попытке исправить ошибки, вместо того, чтобы пытаться снова и снова в течение более длительного периода времени. Ранний отказ сообщает об ошибке RAID-контроллеру, поэтому он может использовать другой диск для восстановления. Если вместо этого диск ждет дольше, RAID-контроллер выкинет диск из массива за то, что он не отвечает.

Неудачи должнывсе ещебыть редким, и не раз в год. Возможно, это другой аспект вашей установки? (У меня однажды была досадная схватка с кабелем SATA, теперь он установлен над моей дверью в качестве предупреждения другим кабелям ...)

Question 4

У меня был очень плохой опыт с дисками Western Digital. Более половины моих дисков пришлось заменить по гарантии из-за полного отказа или плохих секторов.

После покупки только дисков WD в течение примерно 8 лет я больше не хочу тратить на них деньги. Я понятия не имею, какому диску WD я могу доверять; мой опыт пока говорит «ни одному из них».

Вы заменили оригинальный диск 4 раза; вы купили все пять дисков одновременно? Купили новый, чтобы заменить каждый, когда он вышел из строя? Вернули диск по гарантии для замены? Как и когда вы приобрели пять дисков и какие это были модели? По моему опыту, партии дисков WD часто бывают плохими и выходят из строя одновременно.

Answer

У меня был очень плохой опыт с дисками Western Digital. Более половины моих дисков пришлось заменить по гарантии из-за полного отказа или плохих секторов.

После покупки только дисков WD в течение примерно 8 лет я больше не хочу тратить на них деньги. Я понятия не имею, какому диску WD я могу доверять; мой опыт пока говорит «ни одному из них».

Вы заменили оригинальный диск 4 раза; вы купили все пять дисков одновременно? Купили новый, чтобы заменить каждый, когда он вышел из строя? Вернули диск по гарантии для замены? Как и когда вы приобрели пять дисков и какие это были модели? По моему опыту, партии дисков WD часто бывают плохими и выходят из строя одновременно.

ошибки жесткого диска SATA

решение1

решение2

решение3

решение4

Связанный контент