Meu disco rígido está falhando?

Meu disco rígido está falhando?

Acabei de tentar executar um teste no meu disco rígido e ele não deseja concluir um autoteste. Aqui está o resultado:

smartctl --attributes --log=selftest /dev/sda
smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-32-generic] (local build)

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       697
  3 Spin_Up_Time            0x0027   206   160   021    Pre-fail  Always       -       691
  4 Start_Stop_Count        0x0032   074   074   000    Old_age   Always       -       26734
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       28
  9 Power_On_Hours          0x0032   090   090   000    Old_age   Always       -       7432
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   097   097   000    Old_age   Always       -       3186
191 G-Sense_Error_Rate      0x0032   001   001   000    Old_age   Always       -       20473
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       84
193 Load_Cycle_Count        0x0032   051   051   000    Old_age   Always       -       447630
194 Temperature_Celsius     0x0022   113   099   000    Old_age   Always       -       34
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       16
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed: read failure       90%      7432         92290592
# 2  Conveyance offline  Completed: read failure       90%      7432         92290596
# 3  Conveyance offline  Completed: read failure       90%      7432         92290592
# 4  Short offline       Completed: read failure       90%      7431         92290596
# 5  Extended offline    Completed: read failure       90%      7431         92290592

Então este disco está falhando?

Responder1

Sua unidade está muito feliz em fazer um autoteste; pelo resumo, fez mais de cinco deles na última hora. E todos eles falharam, logo no início do teste, com erros de leitura.

Sim, este disco rígido está falhando. Como disse o famoso relatório do Google Labs (embora eu não consiga encontrar um link para ele no momento), se smartctldisser que sua unidade está falhando, provavelmente está (parafraseando).

Editar: não tente salvá-lo. Retire todos os dados e substitua-os.

Responder2

Para responder à sua pergunta, uma falha no teste SMART é uma indicação infalível de falha iminente da unidade. Você deve fazer backup de seus dados e substituir a unidade o mais rápido possível para evitar possível perda de dados.

@sj0h mencionou a contagem do ciclo de carga, que é muito alta, 447.630. (A maioria dos discos rígidos modernos são projetados para suportar 600.000 ciclos de carga/descarga.) Isso normalmente é causado pelo recurso Advanced Power Management (APM), que tenta conservar energia estacionando os cabeçotes (descarregando-os dos pratos) após vários segundos de uso. parado. As cabeças são colocadas de volta nos pratos quando necessário. Na maioria dos sistemas, onde os discos rígidos apresentam atividade intermitente e intermitente, isso pode causar a ocorrência de muitos ciclos de carga/descarga. Para desligar o APM, execute o seguinte comando em um prompt root:

smartctl -s apm,off /dev/sda

Este comando precisará ser executado sempre que o sistema for reinicializado ou colocado em suspensão ou a unidade for desligada, pois essa configuração não é mantida quando a unidade é desligada.

Na minha experiência, fazer isso reduzirá drasticamente o número de ciclos de carga/descarga e, consequentemente, as chances de você experimentar esse tipo de falha novamente no futuro. Observe, entretanto, que isso aumenta o consumo de energia e a temperatura da unidade. Se a unidade funcionar constantemente em temperaturas superiores a 50 °C, o risco de falha prematura aumenta, portanto, você pode deixar o APM ligado (ou ligá-lo se estiver desligado) durante os meses mais quentes.

Responder3

Além das falhas de leitura, considere também a contagem do ciclo de carga. Em quase 500.000, isso pode indicar um motivo de falha ou, pelo menos, alto desgaste do ciclo de carga. Há um ciclo de carga para cada minuto de inicialização. Depois de substituir a unidade, certifique-se de que a nova unidade também não esteja fazendo isso.

Responder4

Eu pessoalmente substituiria a unidade. Se você, por algum motivo, não quiser fazer isso ainda, mas continuar com a unidade por um tempo, precisará de alguma maneira para garantir que não usará acidentalmente as áreas defeituosas para novos arquivos.

Eu tinha um drive assim em um Mac antigo apenas gravando vídeo e decidi que não queria alterá-lo ainda, pois era muito bom ter vídeos. Então eu precisava isolar os erros. Primeiro, criei uma pasta vazia apenas para arquivos inválidos e, em seguida, tentei ler todos os arquivos existentes no disco e qualquer um daqueles com erro foi movido para o diretório de arquivos inválidos (espero que apenas sem importância).

Então criei vários arquivos de um megabyte com nomes exclusivos para preencher o disco rígido (para que todo o espaço vazio estivesse agora em um desses arquivos de 1 MB) e então repeti o procedimento. Todos os arquivos com erros foram movidos para o diretório de arquivos inválidos e os restantes eram bons e podiam ser excluídos para recuperar o espaço inválido.

Agora você pode usar a unidade por mais tempo, mas não a use para coisas importantes. Istovaifalhar mais e provavelmente será inconveniente quando isso acontecer.

informação relacionada