SSD do meu notebookestá agindo mal e o número de erros disparou desde oúltima vez que postei.
Esta unidade está morta/morrendo?
Está ativado agora e estou escrevendo isso nele - tenho backup de todos os meus dados e tudo mais, mas ainda não tenho certeza se é utilizável ou não.
Entrar em contato com o fabricante não ajudou muito: eles me pediram para instalar o Windows e executar o utilitário de verificação de disco a partir daí ou conectá-lo como uma unidade externa a um host Windows e testá-lo lá.
Eu fiz as duas coisas e nenhum erro foi encontrado.
Também verifiquei com o utilitário que eles fornecem (veja a imagem abaixo). Usei então a imagem que fiz com o clonezilla para retornar ao Ubuntu e descobri que a contagem de erros SATA PHY está se aproximando de 300 erros!
Também verifiquei os conectores, mas como o SSD está em um laptop não consigo trocar o cabo (facilmente).
Estes são os resultados dos testes gerados pelo utilitário do fabricante
E a smartctl
saída no Ubuntu, mais tarde:
smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: SPCC Solid State Disk
Serial Number: XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity: 120,034,123,776 bytes [120 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-3 (minor revision not indicated)
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 30) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 2) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000a 100 100 000 Old_age Always - 0
9 Power_On_Hours 0x0012 100 100 000 Old_age Always - 6352
12 Power_Cycle_Count 0x0012 100 100 000 Old_age Always - 2717
168 Unknown_Attribute 0x0012 100 100 000 Old_age Always - 0
170 Unknown_Attribute 0x0013 100 100 010 Pre-fail Always - 25
173 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 105447539
192 Power-Off_Retract_Count 0x0012 100 100 000 Old_age Always - 77
194 Temperature_Celsius 0x0023 070 070 000 Pre-fail Always - 30
196 Reallocated_Event_Count 0x0000 100 100 000 Old_age Offline - 0
218 Unknown_Attribute 0x0000 100 100 000 Old_age Offline - 15431
241 Total_LBAs_Written 0x0012 100 100 000 Old_age Always - 6281157
SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.
Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:08.077 [VENDOR SPECIFIC]
ca 00 80 b0 8f 12 e1 00 00:11:08.076 WRITE DMA
ca 00 80 30 8f 12 e1 00 00:11:08.076 WRITE DMA
ca 00 80 b0 8e 12 e1 00 00:11:08.075 WRITE DMA
ca 00 80 30 8e 12 e1 00 00:11:08.074 WRITE DMA
Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:08.039 [VENDOR SPECIFIC]
ca 00 80 b0 7c 12 e1 00 00:11:08.038 WRITE DMA
ca 00 80 30 7c 12 e1 00 00:11:08.038 WRITE DMA
ca 00 80 b0 7b 12 e1 00 00:11:08.037 WRITE DMA
ca 00 80 30 7b 12 e1 00 00:11:08.037 WRITE DMA
Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.974 [VENDOR SPECIFIC]
ca 00 80 b0 48 12 e1 00 00:11:07.973 WRITE DMA
ca 00 80 30 48 12 e1 00 00:11:07.972 WRITE DMA
ca 00 80 b0 47 12 e1 00 00:11:07.972 WRITE DMA
ca 00 80 30 47 12 e1 00 00:11:07.972 WRITE DMA
Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.927 [VENDOR SPECIFIC]
ca 00 80 b0 2a 12 e1 00 00:11:07.926 WRITE DMA
ca 00 80 30 2a 12 e1 00 00:11:07.925 WRITE DMA
ca 00 80 b0 29 12 e1 00 00:11:07.925 WRITE DMA
ca 00 80 30 29 12 e1 00 00:11:07.924 WRITE DMA
Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
When the command that caused the error occurred, the device was active or idle.
After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 01 01 00 00 00
Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
ff d5 01 01 00 00 00 ff 00:11:07.899 [VENDOR SPECIFIC]
ca 00 80 b0 22 12 e1 00 00:11:07.898 WRITE DMA
ca 00 80 30 22 12 e1 00 00:11:07.897 WRITE DMA
ca 00 80 b0 21 12 e1 00 00:11:07.897 WRITE DMA
ca 00 80 30 21 12 e1 00 00:11:07.896 WRITE DMA
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 6288 -
# 2 Conveyance offline Completed without error 00% 6285 -
# 3 Short offline Completed without error 00% 6285 -
# 4 Extended offline Completed without error 00% 6283 -
# 5 Extended offline Completed without error 00% 6283 -
# 6 Short offline Completed without error 00% 6283 -
# 7 Extended offline Completed without error 00% 6262 -
# 8 Conveyance offline Completed without error 00% 6262 -
# 9 Conveyance offline Completed without error 00% 6262 -
#10 Extended offline Completed without error 00% 6262 -
#11 Short offline Completed without error 00% 6262 -
#12 Conveyance offline Completed without error 00% 6211 -
#13 Extended offline Completed without error 00% 6211 -
#14 Short offline Completed without error 00% 6211 -
#15 Short offline Completed without error 00% 6075 -
#16 Conveyance offline Completed without error 00% 5564 -
#17 Extended offline Completed without error 00% 5564 -
#18 Short offline Completed without error 00% 5564 -
#19 Conveyance offline Completed without error 00% 5319 -
#20 Short offline Completed without error 00% 5319 -
#21 Conveyance offline Completed without error 00% 4403 -
SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Responder1
Substitua seu SSD
As pessoas tentaram muitas coisas nos comentários, mas este SSD parece ter alguns problemas.
A julgar pelas leituras SMART, sua unidade não teve muita ação (~250 energia por dia, ~6 TB gravados) e você diz que ela tem cerca de 2 anos. Isso deve estar dentro da garantia!
Meu conselho é
- faça backup de todos os seus dados imediatamente (embora você diga que já cuidou disso)
- remova/substitua o SSD (dependendo do seu orçamento, é claro)
- envie o disco ao fabricante para substituição
Seu "Fino S70"o disco deve ser coberto pela garantia de 5 anos daPoder do Silício
Basta enviá-losuma solicitação de RMA aqui.
Responder2
Algum tempo antes de 11 de maio de 2017, você atualizou o firmware do SSD. No entanto, uma nova versão foi lançada emSetembro de 2017e você deve aplicá-lo usando o Windows.
Execute fstrim
para descartar blocos não utilizados no sistema de arquivos:
$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed
No meu caso, os resultados para partições do Windows 10 /mnt/c
estavam /mnt/e
fora deste mundo. Então verifiquei os arquivos e nenhum dano foi causado aos dados.
Execute fsck -f
em seu SSD após inicializar com um Live-USB quando a partição não estiver montada. Outra opção é executar fsck -f
a partir do grub -Como fsck disco rígido enquanto o disco rígido está desmontado, usando um pendrive inicializável?.
Conforme mencionado nos comentários, um cabo SATA defeituoso pode causar erros. Mas comoesta respostaressalta, uma conexão solta também pode causar erros. Para descartar uma conexão ruim/frouxa, remova os plugues do seu SSD, sopre ar comprimido sobre eles e os pinos macho da unidade e recoloque os cabos com firmeza.
Quanto vale o seu tempo?
A última pergunta é quanto vale o seu tempo. Supondo que você gastou 10 horas neste problema, ele custará US$ 5/hora porque muitos novos SSDs SATA III de 120 GB podem ser adquiridos emebay.com
Atualização de 23 de fevereiro de 2018
Eu li todas as outras respostas esta noite. Uma resposta diz para devolvê-lo. Mas se você fizer isso e eles não encontrarem nada de errado, eles simplesmente o enviarão de volta e você ficará sem dirigir por 2 semanas a 2 meses.
Outra resposta diz que o smartctl relata que não há nada de errado com a unidade.
Nesta resposta sugeri executar fsck -f
e você respondeu que nenhum erro foi relatado.
Execute fsck
cada inicialização
Como um compromisso entre a resposta negativa (devolva) e a resposta positiva (nada está errado), minha inclinação seriaexecute fsck
em cada inicialização. Se um erro for descoberto, a inicialização será pausada e você poderá ler a mensagem de erro. Para resumir o uso do link:
sudo tune2fs -c 1 /dev/sdX
Nota: substitua X
pela letra da sua unidade, ou seja, a
, b
, etc..
Se depois de um mês sem erros, altere o valor de 1
para 30
o que é típico para a maioria dos sistemas, acredito. Em um SSD típico, ele fsck
será executado rapidamente.
Limpe e recoloque os cabos SATA
Outros mencionaram a substituição do cabo SATA, que é problemático para um laptop. Como solução, considere desconectar todos os cabos do lado do inversor, usando ar comprimido nas extremidades macho e fêmea e, em seguida, reconectar os cabos com firmeza.
Responder3
Não há nada de errado com sua unidade. Todos os testes passam. Você está simplesmente interpretando mal os dados SMART.
Em primeiro lugar, a primeira captura de tela contém dados brutos e você não pode tirar conclusões sobre isso. Não tenho ideia da utilidade que seu criador pensa que os dados teriam para alguém, mas na verdade não significam nada. A menos que as colunas significativas possam ser alcançadas rolando para a direita na janela ou algo assim.
Deixe-me explicar as colunas do relatório SMART (o último relatório que você postou).
- Nome do atributo: nome da métrica
- Valor: valor atual, quanto maior melhor. Os valores geralmente vão de 100, onde 100 = melhor, mas pode-se usar qualquer escala, desde que quanto maior, melhor. Mesmo que a métrica seja algo como “taxa de erro”, ela é normalizada para que valores mais altos signifiquem taxas de erro mais baixas.
- Pior: pior valor observado, quanto maior melhor.
- Thresh: se o valor cair abaixo disso, é uma condição de falha. Em ou acima = aprovado.
- Tipo: o que uma condição de falha significaria para esta métrica.
- Old_age: esta métrica é indicativa da idade/uso da unidade, não de um problema específico.
- Pré-falha: esta métrica é indicativa de um problema potencial com a unidade, aumentando a chance de falha da unidade.
- When_failed: Quando entrou no modo de falha, se alguma vez
- Raw_value: medição interna da unidade que contribuiu para o valor - não é útil para o usuário final e valores mais baixos ou mais altos não indicam necessariamente melhor ou pior.
Para abordar algumas áreas específicas do relatório:
Resultado do teste de autoavaliação de saúde geral SMART: APROVADO
Isso reflete tudo que passou. Nenhuma das métricas medidas jamais entrou em estado de falha.
O registro de “erros” é relativamente típico de uma unidade. Isso não indica necessariamente erros irrecuperáveis ou mesmo problemas com a própria unidade; seus relatórios são vagos, então você não pode dizer o que realmente aconteceu, exceto que foi durante a transferência do DMA no controlador, mas se algo fosse importante, seria refletido no relatório geral de saúde. Em particular, estes podem ser algo bastante inocente, como gravações que foram canceladas no final do controlador ou o sistema operacional solicitando algum recurso durante o carregamento que a unidade não suporta, o que pode ser totalmente normal ao testar os recursos do dispositivo.
Finalmente, uma observação sobre erros CRC ou taxas de erro: todas as unidades têm uma taxa de erro. As unidades armazenam dados em densidades tão altas que um certo número de erros de bits é esperado e projetado para isso, usando código de correção de erros. O código de correção de erros garante que um certo número de erros de bits por bloco de bits possa ocorrer e ser 100% corrigido. A unidade aplica constantemente o código de correção de erros o tempo todo, e o código de correção de erros é projetado para que a chance de umirrecuperávelo erro que ocorre aleatoriamente é muito baixo (por exemplo, significativamente menos provável do que ganhar na loteria) em uma unidade que funciona bem. Se você vir uma taxa de erro em alguma estatística e ela for tratada como se não fosse grande coisa, é porque não é, serão apenas erros corrigidos.
Responder4
Como você tem apenas erros de WRITE DMAecurtoetestes longos não mostram erros.
E como o DMA trata do acesso direto à memória, tente descobrir se o BIOS possui um teste de diagnóstico de hardware separado e tente os testes relacionados à memória.
Se não houver um teste de BIOS incorporado disponível, consulte o site de suporte do fabricante se um diagnóstico de hardware offline estiver disponível (por exemplo: arquivo ISO inicializável para gravar em CD ou pendrive)
(BTW: Um CD do Ubuntu também possui diagnóstico de memória)
Como a gravação DMA é IO, eu tentaria substituir o cabo SATA e verificar se nenhum novo número de erro foi adicionado depois disso (o último está aqui 298, mas mais podem ser adicionados agora)