Disco duro defectuoso o controlador defectuoso después de un apagado completo

2024-7-8 • tag-icon

Disco duro defectuoso o controlador defectuoso después de un apagado completo

Después de congelar todo con el monitor dual por millonésima vez, tuve que cortar la energía de mi macbook pro (mediados de 2010, fedora 24, disco duro SAMSUNG HN-M500MBB). No estaba haciendo nada pesado, solo ver diapositivas con evidencia.

Al reiniciar, comienza a escupir errores sobre un sector defectuoso y a aparecer errores como:

blk_update_request: I/O error, dev sda, sector 969158669
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x3c000000 SErr 0x0 action 0x6 frozen
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/08:d0:08:30:c4/00:00:39:00:00/40 tag 26 ncq dma 4096 in
         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/28:d8:c8:2f:c4/00:00:39:00:00/40 tag 27 ncq dma 20480 in
         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/38:e0:88:2f:c4/00:00:39:00:00/40 tag 28 ncq dma 28672 in
         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1.00: failed command: READ FPDMA QUEUED
ata1.00: cmd 60/78:e8:08:2f:c4/00:00:39:00:00/40 tag 29 ncq dma 61440 in
         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
ata1.00: status: { DRDY }
ata1: hard resetting link
ata1: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata1.00: configured for UDMA/133
ata1.00: device reported invalid CHS sector 0

con el ocasional

sd 0:0:0:0: [sda] tag#19 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
sd 0:0:0:0: [sda] tag#19 Sense Key : Medium Error [current] 
sd 0:0:0:0: [sda] tag#19 Add. Sense: Unrecovered read error - auto reallocate failed
sd 0:0:0:0: [sda] tag#19 CDB: Read(10) 28 00 39 c4 30 08 00 00 08 00
blk_update_request: I/O error, dev sda, sector 969158669
Buffer I/O error on dev dm-2, logical block 1, async page read

ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata1.00: irq_stat 0x40000001
ata1.00: failed command: READ SECTOR(S) EXT
ata1.00: cmd 24/00:01:0d:30:c4/00:00:39:00:00/e0 tag 6 pio 512 in
         res 51/40:01:0d:30:c4/00:00:39:00:00/e0 Emask 0x9 (media error)
ata1.00: status: { DRDY ERR }
ata1.00: error: { UNC }

Aquí está el resultado de smartctl después de intentar leer un par de sectores después del defectuoso con hdparm:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   100   100   051    Pre-fail  Always       -       469
  2 Throughput_Performance  0x0026   252   252   000    Old_age   Always       -       0
  3 Spin_Up_Time            0x0023   086   086   025    Pre-fail  Always       -       4463
  4 Start_Stop_Count        0x0032   092   092   000    Old_age   Always       -       8099
  5 Reallocated_Sector_Ct   0x0033   252   252   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   252   252   051    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0024   252   252   015    Old_age   Offline      -       0
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       19382
 10 Spin_Retry_Count        0x0032   252   252   051    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       980
 12 Power_Cycle_Count       0x0032   092   092   000    Old_age   Always       -       8214
181 Program_Fail_Cnt_Total  0x0022   097   097   000    Old_age   Always       -       66246139
191 G-Sense_Error_Rate      0x0022   100   100   000    Old_age   Always       -       3820
192 Power-Off_Retract_Count 0x0022   100   100   000    Old_age   Always       -       20
194 Temperature_Celsius     0x0002   064   051   000    Old_age   Always       -       32 (Min/Max 15/49)
195 Hardware_ECC_Recovered  0x003a   100   100   000    Old_age   Always       -       0
196 Reallocated_Event_Count 0x0032   252   252   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   100   100   000    Old_age   Always       -       15
198 Offline_Uncorrectable   0x0030   252   252   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0036   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x002a   100   100   000    Old_age   Always       -       255
223 Load_Retry_Count        0x0032   100   100   000    Old_age   Always       -       980
225 Load_Cycle_Count        0x0032   001   001   000    Old_age   Always       -       1583719

Tenga en cuenta los sectores pendientes... Tanto las autopruebas cortas como las largas informan el mismo sector defectuoso que el kernel.

Curiosamente, hdparm ~~logra leer todo correctamente, pero~~ (ver la edición a continuación) como que se cuelga y dice

reading sector 969158769: SG_IO: bad/missing sense data, sb[]:  70 00 03 00 00 00 00 0a 00 51 e0 01 11 04 00 00 a0 71 00 00 00 00 00 00 00 00 00 00 00 00 00 00
succeeded

Y lo dice para algo así como 200 sectores después del primero malo. Reescribí un par de ellos con hdparm --write-sector y dejaron de quejarse. Ahora estoy haciendo una copia de seguridad y pedí una nueva unidad, pero mientras tanto me gustaría entender qué pasó y tal vez intentar arreglar este.

Tenga en cuenta que el recuento de sectores reasignados no aumenta después de que reescribí un par de malos, lo que se suma a la rareza de todo el asunto. Después de una reescritura, leen y escriben bien como si nada hubiera pasado, pero el firmware no parece reasignarlos como sectores defectuosos.

¿Alguna idea? ¿Debería simplemente deshacerme del viaje?

PD. OSX en otra partición todavía funciona bastante bien.

EDITAR: consecuencias

Después de hacer una copia de seguridad comencé a experimentar un poco con el disco duro.

Después del primer sector defectuoso hubo otros 150 con los mismos problemas. Intenté leerlos ddy dd_rescuefallaron. hdparm --read-sectorfuncionó (con el error de sentido anterior) pero devolvió datos inconsistentes (diferentes en cada lectura). hdparm --write-sectorParecía solucionarlos, así que simplemente reescribí todos los sectores defectuosos.

Ahora smartctlinforma 0 sectores pendientes y 0 reasignaciones, tanto las autopruebas cortas como las largas se completan sin errores. Linux arranca bien, todos los errores desaparecieron.

Estoy un poco preocupado por esos ~70kb que eliminé, es un poco complicado con LVM entender lo que realmente contenían. Dejé un par de MB en esa área y son todos ceros, así que estoy seguro de que es un espacio vacío o un intercambio.

Demasiado pronto para celebrar todavía, pero el resultado parece prometedor; actualizaremos la pregunta si sucede algo nuevo.

información relacionada