HDD и SSD Linux: ссылка на полный сброс настроек

HDD и SSD Linux: ссылка на полный сброс настроек

Моя текущая конфигурация хранилища состоит из двух традиционных HDD и двух SSD в моем Linux-боксе, каждый из которых находится в собственном массиве RAID 1, зашифрованном с помощью luks. У меня есть своего рода история, а не конкретный вопрос.

Уже больше года я время от времени получаю ошибки «жесткого сброса ссылок» в журнале ядра с некоторых моих дисков. Я бы RMA проблемного диска, и новые диски бы решили проблему. Несколько месяцев спустя я бы снова начал видеть ту же ошибку в, казалось бы, случайные моменты времени. Диск был бы отмечен как неисправный в RAID и больше не отображался в fdisk -l. Я бы перезагрузил компьютер, и диск снова появился бы, и я мог бы повторно добавить его в массив, и он бы восстановился. Рано или поздно эта проблема возникала бы снова, обычно через несколько часов.

Около шести месяцев назад я заменил два традиционных HDD на SSD в надежде, что у них не будет такого высокого уровня отказов, как у традиционных дисков. Однако за последние несколько дней у меня начались проблемы как с одним из новых SSD, так и с одним из традиционных дисков.

Я начинаю замечать закономерность. Я покупаю новый диск, а через несколько месяцев у меня с ним начинаются проблемы. Я всегда предполагал, что это из-за высокой частоты отказов HDD, но теперь это происходит и с SSD, поэтому я думаю, что это не вина диска. В чем еще может быть проблема? У меня было установлено несколько ОС с тех пор, как у меня началась проблема, поэтому я хочу исключить проблему с программным обеспечением. Остаются либо кабели SATA, либо материнская плата. Может ли шифрование диска оказывать слишком большую нагрузку на диски? Могу ли я что-то сделать, чтобы узнать больше информации? Спасибо, как всегда.

Ниже приведен dmesgрезультат решения проблемы, который я задал несколько месяцев назад, когда у меня возникла та же проблема.

[43161.734107] ata3: ATA_REG 0x41 ERR_REG 0x84
[43161.734110] ata3: tag : dhfis dmafis sdbfis sactive
[43161.734113] ata3: tag 0x0: 1 1 0 1  
[43161.734123] ata3.00: exception Emask 0x1 SAct 0x1 SErr 0x180000 action 0x6 frozen
[43161.734127] ata3.00: Ata error. fis:0x21
[43161.734130] ata3: SError: { 10B8B Dispar }
[43161.734134] ata3.00: failed command: READ FPDMA QUEUED
[43161.734142] ata3.00: cmd 60/08:00:a8:03:00/00:00:00:00:00/40 tag 0 ncq 4096 in
[43161.734144]          res 41/84:04:a8:03:00/84:00:00:00:00/40 Emask 0x10 (ATA bus error)
[43161.734148] ata3.00: status: { DRDY ERR }
[43161.734150] ata3.00: error: { ICRC ABRT }
[43161.734155] ata3: hard resetting link
[43161.734158] ata3: nv: skipping hardreset on occupied port
[43162.220095] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43162.260202] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43162.260206] ata3.00: revalidation failed (errno=-19)
[43162.260211] ata3.00: limiting speed to UDMA/133:PIO2
[43167.220123] ata3: hard resetting link
[43167.220127] ata3: nv: skipping hardreset on occupied port
[43167.710060] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43167.750228] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43167.750232] ata3.00: revalidation failed (errno=-19)
[43167.750236] ata3.00: disabled
[43172.710100] ata3: hard resetting link
[43173.620110] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43173.640455] ata3.00: failed to IDENTIFY (INIT_DEV_PARAMS failed, err_mask=0x80)
[43178.620116] ata3: hard resetting link
[43179.530113] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43179.550748] ata3.00: ATA-8: WDC WD2002FAEX-007BA0, 05.01D05, max UDMA/133
[43179.550753] ata3.00: 3907029168 sectors, multi 16: LBA48 NCQ (depth 31/32)
[43179.570208] ata3.00: model number mismatch 'WDC WD2002FAEX-007BA0' != 'C WD2002FAEX-007BA0                   �'
[43179.570213] ata3.00: revalidation failed (errno=-19)
[43179.570220] ata3: limiting SATA link speed to 1.5 Gbps
[43179.570224] ata3.00: limiting speed to UDMA/133:PIO3
[43184.530066] ata3: hard resetting link
[43184.530070] ata3: nv: skipping hardreset on occupied port
[43185.020091] ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43185.060949] ata3.00: configured for UDMA/133
[43185.060969] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
[43185.060974] sd 2:0:0:0: [sdd]  Sense Key : Aborted Command [current] [descriptor]
[43185.060980] Descriptor sense data with sense descriptors (in hex):
[43185.060983]         72 0b 47 00 00 00 00 0c 00 0a 80 00 00 00 00 00 
[43185.060995]         00 00 03 a8 
[43185.061000] sd 2:0:0:0: [sdd]  Add. Sense: Scsi parity error
[43185.061006] sd 2:0:0:0: [sdd] CDB: Read(10): 28 00 00 00 03 a8 00 00 08 00
[43185.061017] end_request: I/O error, dev sdd, sector 936
[43185.061023] Buffer I/O error on device sdd, logical block 117
[43185.061044] sd 2:0:0:0: rejecting I/O to offline device
[43185.061048] sd 2:0:0:0: killing request
[43185.061062] ata3: EH complete
[43185.061075] sd 2:0:0:0: rejecting I/O to offline device
[43185.061123] sd 2:0:0:0: rejecting I/O to offline device
[43185.061134] sd 2:0:0:0: rejecting I/O to offline device
[43185.061140] sd 2:0:0:0: rejecting I/O to offline device
[43185.061145] sd 2:0:0:0: [sdd] READ CAPACITY(16) failed
[43185.061147] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061152] sd 2:0:0:0: [sdd] Sense not available.
[43185.061155] sd 2:0:0:0: rejecting I/O to offline device
[43185.061166] sd 2:0:0:0: rejecting I/O to offline device
[43185.061175] sd 2:0:0:0: rejecting I/O to offline device
[43185.061185] sd 2:0:0:0: rejecting I/O to offline device
[43185.061193] sd 2:0:0:0: rejecting I/O to offline device
[43185.061198] sd 2:0:0:0: [sdd] READ CAPACITY failed
[43185.061202] sd 2:0:0:0: rejecting I/O to offline device
[43185.061209] sd 2:0:0:0: [sdd]  Result: hostbyte=DID_NO_CONNECT driverbyte=DRIVER_OK
[43185.061215] sd 2:0:0:0: [sdd] Sense not available.
[43185.061226] sd 2:0:0:0: rejecting I/O to offline device
[43185.061235] sd 2:0:0:0: rejecting I/O to offline device
[43185.061245] sd 2:0:0:0: rejecting I/O to offline device
[43185.061254] sd 2:0:0:0: rejecting I/O to offline device
[43185.061263] sd 2:0:0:0: rejecting I/O to offline device
[43185.061274] sd 2:0:0:0: rejecting I/O to offline device
[43185.061280] sd 2:0:0:0: [sdd] Asking for cache data failed
[43185.061283] sd 2:0:0:0: [sdd] Assuming drive cache: write through
[43185.061289] sdd: detected capacity change from 2000398934016 to 0
[43185.061610] ata3.00: detaching (SCSI 2:0:0:0)
[43185.062444] sd 2:0:0:0: [sdd] Stopping disk
[43249.120042] ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
[43249.120046] ata4.00: failed command: FLUSH CACHE EXT
[43249.120051] ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
[43249.120052]          res 40/00:00:00:4f:c2/00:00:00:00:00/00 Emask 0x4 (timeout)
[43249.120054] ata4.00: status: { DRDY }
[43249.120059] ata4: hard resetting link
[43249.120060] ata4: nv: skipping hardreset on occupied port
[43249.610042] ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
[43249.650323] ata4.00: configured for UDMA/133
[43249.650326] ata4.00: retrying FLUSH 0xea Emask 0x4
[43249.650452] ata4.00: device reported invalid CHS sector 0
[43249.650458] ata4: EH complete

решение1

У вас есть вопрос. Я думаю (если я правильно понимаю), каков процесс определения причины этого сбоя?

Я инженер по сетевой безопасности. Так что поймите, что я съёжился, когда печатаю это. Исключите это как проблему с криптографией. Расшифруйте диски и посмотрите, осталась ли проблема. Недостаток в том, что вам нужно будет использовать их в течение нескольких месяцев в расшифрованном виде.

Кабели — это простая проверка (и вам следует начать с них). Поменяйте их местами, но мне трудно поверить, что проблема в этом, если только у вас нет неоновых ламп внутри корпуса.

Остается мамба. Если не остальные два...

Я уверен, что кто-то вмешается, если не согласен с моим решением проблемы. Поменять кабели не так уж и дорого, а временное отключение шифрования — это риск безопасности, который только вы можете определить, готовы ли вы принять.

решение2

Похоже, у вас много ошибок в вашем канале SATA. В результате хост не может надежно получать команды по каналу, а когда это происходит, возвращаемые данные иногда оказываются поврежденными.

Вы видите это в сообщениях, что скорость ограничена или что ожидаемый идентификатор диска не был получен. Вы также видите запутанные сообщения от разных уровней драйвера, которые не обязательно отражают то, что происходит на аппаратном уровне SATA. Например, «ограничение скорости до UDMA/133:PIO3» строго применимо только к параллельным дискам ATA (это просто означает, что драйвер пытается использовать более медленную скорость интерфейса, чтобы проверить, исчезнут ли ошибки), но сообщения об ошибках ясно указывают, что самый низкий уровень, который фактически имеет дело с оборудованием, понимает, что общается с диском SATA.

Ваша мысль о том, что это могут быть кабели SATA, хороша. Попробуйте заменить их и убедитесь, что они рассчитаны на SATA 3,0 Гбит/с (также называемые «SATA 2» или «SATA II»). Я не думаю, что проблема в ваших дисках. Почему после замены диска ошибки появляются только через несколько месяцев? Возможно, кабели каким-то образом отсоединяются, и замена диска переустанавливает их. Или, может быть, это просто случайность.

Связанный контент