Meu Solid State Disk
se tornou um Super Slim Doorstopper
?
Sei que é uma pergunta longa, mas tentei torná-la o mais elaborada e informativa possível. Simplesmente tl;dr
pule a primeira metade da pergunta, embora eu ache que as informações contidas nela possam ser relevantes para o problema.
O que aconteceu
Em primeiro lugar: moro numa área que neste momento está a sofrer com uma enorme onda de calor. A temperatura do ar interior do meu quarto nunca esteve abaixo dos 30°C em 2-3 semanas. Desde há dias que nunca esteve abaixo dos 34°C, nem mesmo a meio da noite. Não tenho AC e meu ventilador não faz praticamente nada. A temperatura do meu SSD. o sensor parece quebrado (sempre informa 5°C), meus HDDs estavam a 48°C, 54°C e 54°C quase sempre. GPU em torno de 60°C e CPU em torno de 52°C. Isso não é bom, mas ainda parece tolerável para mim.
Ontem à noite eu estava usando meu PC, arch linux em um SSD de 64GB, quando tudo congelou. Eu não conseguia mais usar o SSH na máquina. Então, depois de esperar meia hora na esperança de conseguir pelo menos uma conexão SSH, tive que desligar a energia. Gostaria de mencionar também que às vezes meu PC fica muito lento quando eu uso o audacity (grava dados temporários em SSD, pois o audacity parece não suportar sistemas de arquivos NTFS e meu SSD é o único sistema de arquivos não NTFS que possuo) e que recentemente eu me depareiessepergunta falando sobre SSDs ficando mais lentos quando enchem. Posso dizer que meu SSD chega a +95% de espaço usado várias vezes por semana, senão diariamente, devido a muitas gravações audaciosas.
Então depois de desligar o PC tentei ligá-lo novamente, na tela da BIOS ele passou por todos os discos e o SSD dizia S.M.A.R.T. error
. Depois de iniciar o grub (em outra unidade) e tentar inicializar no arch (partição de inicialização em outra unidade também), recebi a mensagem Device /dev/mapper/mydisk-root not found
ou algo semelhante. mydisk-root
deve ser a partição raiz dentro do grupo de volumes do meu SSD criptografado LUKS. Então tentei reiniciar algumas vezes mas sempre obtive o mesmo resultado, quando acabei desistindo, desliguei o PC (na PSU) e fui dormir.
Próximas ações que realizei
Depois que acordei, queria inicializar um Linux Linux ativo para realizar uma varredura SMART, veja o dmesg, o que quer que haja. De repente, o BIOS disse S.M.A.R.T. ok
novamente. Continuei com o USB ativo, onde consegui desbloquear e montar o SSD como de costume. Consegui realizar um backup completo sem problemas também.
Então fui fazer um teste SMART. Um long
teste falhou duas vezes com 50%, detalhes abaixo. Um short
teste foi concluído e não consigo ver nada de ruim nos resultados. O último teste SMART que fiz foi há apenas 2 semanas, foi um long
teste (ver log de teste) e estava tudo bem.
Pergunta 1: Quão brinde é meu SSD?
Este é o resultado da tabela de atributos SMART before
que tentei em todos os testes, então acho que estes long
ainda devem ser os resultados do teste que fiz há duas semanas:
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 050 Pre-fail Always - 0
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 100 100 001 Old_age Always - 23891
12 Power_Cycle_Count 0x0032 100 100 001 Old_age Always - 1063
170 Grown_Failing_Block_Ct 0x0033 100 100 010 Pre-fail Always - 0
171 Program_Fail_Count 0x0032 100 100 001 Old_age Always - 10
172 Erase_Fail_Count 0x0032 100 100 001 Old_age Always - 0
173 Wear_Leveling_Count 0x0033 080 080 010 Pre-fail Always - 611
174 Unexpect_Power_Loss_Ct 0x0032 100 100 001 Old_age Always - 244
181 Non4k_Aligned_Access 0x0022 100 100 001 Old_age Always - 302 89 212
183 SATA_Iface_Downshift 0x0032 100 100 001 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 050 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 001 Old_age Always - 2
188 Command_Timeout 0x0032 100 100 001 Old_age Always - 0
189 Factory_Bad_Block_Ct 0x000e 100 100 001 Old_age Always - 58
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 0
195 Hardware_ECC_Recovered 0x003a 100 100 001 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 100 100 001 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 001 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 001 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 001 Old_age Always - 1
202 Perc_Rated_Life_Used 0x0018 080 080 001 Old_age Offline - 20
206 Write_Error_Rate 0x000e 100 100 001 Old_age Always - 10
Este é o resultado completo -a
após a tentativa long
de teste de hoje, que falhou (ver log de teste):
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 117) The previous self-test completed having
the read element of the test failed.
Total time to complete Offline
data collection: ( 295) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 4) minutes.
Conveyance self-test routine
recommended polling time: ( 3) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 050 Pre-fail Always - 0
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 100 100 001 Old_age Always - 23891
12 Power_Cycle_Count 0x0032 100 100 001 Old_age Always - 1063
170 Grown_Failing_Block_Ct 0x0033 100 100 010 Pre-fail Always - 0
171 Program_Fail_Count 0x0032 100 100 001 Old_age Always - 10
172 Erase_Fail_Count 0x0032 100 100 001 Old_age Always - 0
173 Wear_Leveling_Count 0x0033 080 080 010 Pre-fail Always - 611
174 Unexpect_Power_Loss_Ct 0x0032 100 100 001 Old_age Always - 244
181 Non4k_Aligned_Access 0x0022 100 100 001 Old_age Always - 302 89 212
183 SATA_Iface_Downshift 0x0032 100 100 001 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 050 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 001 Old_age Always - 2
188 Command_Timeout 0x0032 100 100 001 Old_age Always - 0
189 Factory_Bad_Block_Ct 0x000e 100 100 001 Old_age Always - 58
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 0
195 Hardware_ECC_Recovered 0x003a 100 100 001 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 100 100 001 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 001 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 001 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 001 Old_age Always - 1
202 Perc_Rated_Life_Used 0x0018 080 080 001 Old_age Offline - 20
206 Write_Error_Rate 0x000e 100 100 001 Old_age Always - 10
SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 2
ATA Error Count: 0
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 0 occurred at disk power-on lifetime: 23890 hours (995 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
00 50 00 d0 14 d1 40 at LBA = 0x00d114d0 = 13702352
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 d0 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 00 08 c8 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 03 08 c0 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 10 08 b8 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 00 08 b0 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
Error -1 occurred at disk power-on lifetime: 23890 hours (995 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
00 50 00 d0 14 d1 40 at LBA = 0x00d114d0 = 13702352
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 d5 00 d8 13 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 00 00 d8 12 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 da 00 d8 11 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 d0 00 d8 10 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 d1 80 58 10 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Extended offline Completed: read failure 50% 23891 66387896
# 2 Extended offline Completed: read failure 50% 23889 66387896
# 3 Extended offline Completed without error 00% 23437 -
# 4 Short offline Completed without error 00% 564 -
# 5 Vendor (0xff) Completed without error 00% 558 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Este é o resultado completo -a
após a tentativa short
de teste de hoje, que deu certo:
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x80) Offline data collection activity
was never started.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 295) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 4) minutes.
Conveyance self-test routine
recommended polling time: ( 3) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 100 100 050 Pre-fail Always - 0
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
9 Power_On_Hours 0x0032 100 100 001 Old_age Always - 23891
12 Power_Cycle_Count 0x0032 100 100 001 Old_age Always - 1063
170 Grown_Failing_Block_Ct 0x0033 100 100 010 Pre-fail Always - 0
171 Program_Fail_Count 0x0032 100 100 001 Old_age Always - 10
172 Erase_Fail_Count 0x0032 100 100 001 Old_age Always - 0
173 Wear_Leveling_Count 0x0033 080 080 010 Pre-fail Always - 611
174 Unexpect_Power_Loss_Ct 0x0032 100 100 001 Old_age Always - 244
181 Non4k_Aligned_Access 0x0022 100 100 001 Old_age Always - 302 89 212
183 SATA_Iface_Downshift 0x0032 100 100 001 Old_age Always - 0
184 End-to-End_Error 0x0033 100 100 050 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 001 Old_age Always - 2
188 Command_Timeout 0x0032 100 100 001 Old_age Always - 0
189 Factory_Bad_Block_Ct 0x000e 100 100 001 Old_age Always - 58
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 0
195 Hardware_ECC_Recovered 0x003a 100 100 001 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 100 100 001 Old_age Always - 0
197 Current_Pending_Sector 0x0032 100 100 001 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 100 001 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 100 100 001 Old_age Always - 1
202 Perc_Rated_Life_Used 0x0018 080 080 001 Old_age Offline - 20
206 Write_Error_Rate 0x000e 100 100 001 Old_age Always - 10
SMART Error Log Version: 1
Warning: ATA error count 0 inconsistent with error log pointer 2
ATA Error Count: 0
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 0 occurred at disk power-on lifetime: 23890 hours (995 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
00 50 00 d0 14 d1 40 at LBA = 0x00d114d0 = 13702352
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 00 08 d0 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 00 08 c8 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 03 08 c0 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 10 08 b8 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 00 08 b0 14 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
Error -1 occurred at disk power-on lifetime: 23890 hours (995 days + 10 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
00 50 00 d0 14 d1 40 at LBA = 0x00d114d0 = 13702352
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
60 d5 00 d8 13 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 00 00 d8 12 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 da 00 d8 11 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 d0 00 d8 10 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
60 d1 80 58 10 d1 40 00 1d+05:22:14.080 READ FPDMA QUEUED
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 23891 -
# 2 Extended offline Completed: read failure 50% 23891 66387896
# 3 Extended offline Completed: read failure 50% 23889 66387896
# 4 Extended offline Completed without error 00% 23437 -
# 5 Short offline Completed without error 00% 564 -
# 6 Vendor (0xff) Completed without error 00% 558 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Acho muito engraçado como todas as três tabelas de atributos são iguais. Ou estou faltando alguma coisa aqui? Não sou especialista em SMART, mas de acordo com meu conhecimento, esses três resultados são perfeitos. (?) Ainda não tentei, mas desde que a montagem e a obtenção dos arquivos funcionaram e o BIOS reportou novamente, ok
presumo que também poderia inicializá-lo novamente. Eu deveria?
Pergunta 2: Por que isso aconteceu?
Isso é simplesmente uma coisa envelhecida ou meu uso constante de audácia no SSD causou isso?
Tem algo a ver com o SSD atingindo constantemente 90-100% do espaço usado?
Como isso pode passar detudo está bemparaNão consigo mais realizar um teste SMARTem apenas duas semanas?
O que dizem esses resultados de testes inteligentes? A tabela de atributos após o teste de hoje ainda parece ótima para mim ou estou errado?
Pergunta 3: Isso é contagioso?
Se este SSD quebrasse e eu comprasse um novo, eu poderia simplesmente dd if=/old/ssd of=/new/ssd
ficar bem ou isso causaria problemas? Qual seria a melhor abordagem para mudar para um novo disco? Observe que estou usando o LUKS em todo o dispositivo no modo RAW com um cabeçalho desanexado e gostaria apenas de "clonar" tudo isso no novo disco.
Editar:Acabei de inicializar o SSD novamente e parece funcionar. Comprarei um novo SSD o mais rápido possível, pois presumo que usar este seja uma má ideia. A seguir estão as entradas mais recentes no syslos antes da falha:
Responder1
O status SMART mostra muitos indicadores antigos ou moribundos, mas nada grita “isso matou!”.
Seu registro mostra uma vida útil de 995 dias e 10 horas, sugerindo que você deixe sua máquina ligada permanentemente, o que não é uma coisa ruim por si só, significa apenas que a unidade passou por muitas horas de pequenas gravações enquanto o funcionamento sistema faz contabilidade e uso geral.
Para mim, parece que o SSD está velho e desgastado. O Perc_Rated_Life_Used
é surpreendentemente baixo, assim comoErase_Fail_Count
O que me preocupa é o seu acerto "normal" de 95% + cheio, o que reduzirá o conjunto de blocos vazios disponíveis para o algoritmo de nivelamento de desgaste fazer seu trabalho. Você efetivamente acabará sobrecarregando mais uma pequena quantidade de blocos durante os momentos em que estiver sem espaço, resultando em um pequeno cluster de blocos com um nível enorme de gravações, enquanto a média na unidade é muito baixa. Ao fazer isso repetidamente, o nivelador de desgaste provavelmente escolherá os "melhores" (menos escritos) blocos para escrever primeiro, mas quando você chegar a 100% cheio, ficará com os "piores" blocos. Combine isso com programas gerais e o sistema operacional executando suas tarefas significa que você desgastará os piores blocos muito mais rapidamente. É uma maneira perfeita de enfatizar as piores partes da viagem e enviá-la para a morte prematura.
Você efetivamente força as principais funções do sistema de arquivos e da contabilidade do SSD nas piores células, pois elas provavelmente serão gravadas regularmente na unidade, especialmente quando o SSD estiver quase cheio e, mais cedo ou mais tarde, algo ruim acontecerá. Se você ficar sem blocos realocáveis e uma estrutura de chave não puder ser movida, a unidade poderá travar.
É por isso que as pessoas dizem que você deve sempre tentar manter uma quantidade anedótica de espaço livre em sua unidade, porque quanto menos espaço você tiver livre, mais difícil será trabalhar na área queélivre.
É possível que a velhice e as gravações pesadas em pequenos grupos de blocos tenham desgastado partes da unidade.
Provavelmente, copiar o que você precisa para uma nova unidade não terá problema, falhas de hardware como essa tendem a não ser contagiosas.