Substitua seu SSD

Substitua seu SSD

SSD do meu notebookestá agindo mal e o número de erros disparou desde oúltima vez que postei.

Esta unidade está morta/morrendo?
Está ativado agora e estou escrevendo isso nele - tenho backup de todos os meus dados e tudo mais, mas ainda não tenho certeza se é utilizável ou não.

Entrar em contato com o fabricante não ajudou muito: eles me pediram para instalar o Windows e executar o utilitário de verificação de disco a partir daí ou conectá-lo como uma unidade externa a um host Windows e testá-lo lá.
Eu fiz as duas coisas e nenhum erro foi encontrado.

Também verifiquei com o utilitário que eles fornecem (veja a imagem abaixo). Usei então a imagem que fiz com o clonezilla para retornar ao Ubuntu e descobri que a contagem de erros SATA PHY está se aproximando de 300 erros!

Também verifiquei os conectores, mas como o SSD está em um laptop não consigo trocar o cabo (facilmente).

Estes são os resultados dos testes gerados pelo utilitário do fabricante

Resultado dos testes

E a smartctlsaída no Ubuntu, mais tarde:

smartctl 6.5 2016-05-07 r4318 [x86_64-linux-4.14.0-041400-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     SPCC Solid State Disk
Serial Number:    XXXXXXXXXX
Firmware Version: S9FM02.8
User Capacity:    120,034,123,776 bytes [120 GB]
Sector Size:      512 bytes logical/physical
Rotation Rate:    Solid State Device
Form Factor:      2.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-3 (minor revision not indicated)
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Feb 18 02:22:56 2018 EET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x00) Offline data collection activity
                    was never started.
                    Auto Offline Data Collection: Disabled.
Self-test execution status:      (   0) The previous self-test routine completed
                    without error or no self-test has ever 
                    been run.
Total time to complete Offline 
data collection:        (   30) seconds.
Offline data collection
capabilities:            (0x7b) SMART execute Offline immediate.
                    Auto Offline data collection on/off support.
                    Suspend Offline collection upon new
                    command.
                    Offline surface scan supported.
                    Self-test supported.
                    Conveyance Self-test supported.
                    Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                    power-saving mode.
                    Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                    General Purpose Logging supported.
Short self-test routine 
recommended polling time:    (   1) minutes.
Extended self-test routine
recommended polling time:    (   2) minutes.
Conveyance self-test routine
recommended polling time:    (   2) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000a   100   100   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0012   100   100   000    Old_age   Always       -       6352
 12 Power_Cycle_Count       0x0012   100   100   000    Old_age   Always       -       2717
168 Unknown_Attribute       0x0012   100   100   000    Old_age   Always       -       0
170 Unknown_Attribute       0x0013   100   100   010    Pre-fail  Always       -       25
173 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       105447539
192 Power-Off_Retract_Count 0x0012   100   100   000    Old_age   Always       -       77
194 Temperature_Celsius     0x0023   070   070   000    Pre-fail  Always       -       30
196 Reallocated_Event_Count 0x0000   100   100   000    Old_age   Offline      -       0
218 Unknown_Attribute       0x0000   100   100   000    Old_age   Offline      -       15431
241 Total_LBAs_Written      0x0012   100   100   000    Old_age   Always       -       6281157

SMART Error Log Version: 1
ATA Error Count: 298 (device log contains only the most recent five errors)
    CR = Command Register [HEX]
    FR = Features Register [HEX]
    SC = Sector Count Register [HEX]
    SN = Sector Number Register [HEX]
    CL = Cylinder Low Register [HEX]
    CH = Cylinder High Register [HEX]
    DH = Device/Head Register [HEX]
    DC = Device Command Register [HEX]
    ER = Error register [HEX]
    ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 298 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.077  [VENDOR SPECIFIC]
  ca 00 80 b0 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 30 8f 12 e1 00      00:11:08.076  WRITE DMA
  ca 00 80 b0 8e 12 e1 00      00:11:08.075  WRITE DMA
  ca 00 80 30 8e 12 e1 00      00:11:08.074  WRITE DMA

Error 297 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:08.039  [VENDOR SPECIFIC]
  ca 00 80 b0 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 30 7c 12 e1 00      00:11:08.038  WRITE DMA
  ca 00 80 b0 7b 12 e1 00      00:11:08.037  WRITE DMA
  ca 00 80 30 7b 12 e1 00      00:11:08.037  WRITE DMA

Error 296 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.974  [VENDOR SPECIFIC]
  ca 00 80 b0 48 12 e1 00      00:11:07.973  WRITE DMA
  ca 00 80 30 48 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 b0 47 12 e1 00      00:11:07.972  WRITE DMA
  ca 00 80 30 47 12 e1 00      00:11:07.972  WRITE DMA

Error 295 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.927  [VENDOR SPECIFIC]
  ca 00 80 b0 2a 12 e1 00      00:11:07.926  WRITE DMA
  ca 00 80 30 2a 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 b0 29 12 e1 00      00:11:07.925  WRITE DMA
  ca 00 80 30 29 12 e1 00      00:11:07.924  WRITE DMA

Error 294 occurred at disk power-on lifetime: 0 hours (0 days + 0 hours)
  When the command that caused the error occurred, the device was active or idle.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  84 51 01 01 00 00 00

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  ff d5 01 01 00 00 00 ff      00:11:07.899  [VENDOR SPECIFIC]
  ca 00 80 b0 22 12 e1 00      00:11:07.898  WRITE DMA
  ca 00 80 30 22 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 b0 21 12 e1 00      00:11:07.897  WRITE DMA
  ca 00 80 30 21 12 e1 00      00:11:07.896  WRITE DMA

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      6288         -
# 2  Conveyance offline  Completed without error       00%      6285         -
# 3  Short offline       Completed without error       00%      6285         -
# 4  Extended offline    Completed without error       00%      6283         -
# 5  Extended offline    Completed without error       00%      6283         -
# 6  Short offline       Completed without error       00%      6283         -
# 7  Extended offline    Completed without error       00%      6262         -
# 8  Conveyance offline  Completed without error       00%      6262         -
# 9  Conveyance offline  Completed without error       00%      6262         -
#10  Extended offline    Completed without error       00%      6262         -
#11  Short offline       Completed without error       00%      6262         -
#12  Conveyance offline  Completed without error       00%      6211         -
#13  Extended offline    Completed without error       00%      6211         -
#14  Short offline       Completed without error       00%      6211         -
#15  Short offline       Completed without error       00%      6075         -
#16  Conveyance offline  Completed without error       00%      5564         -
#17  Extended offline    Completed without error       00%      5564         -
#18  Short offline       Completed without error       00%      5564         -
#19  Conveyance offline  Completed without error       00%      5319         -
#20  Short offline       Completed without error       00%      5319         -
#21  Conveyance offline  Completed without error       00%      4403         -

SMART Selective self-test log data structure revision number 0
Note: revision number not 1 implies that no selective self-test has ever been run
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Responder1

Substitua seu SSD

As pessoas tentaram muitas coisas nos comentários, mas este SSD parece ter alguns problemas.

A julgar pelas leituras SMART, sua unidade não teve muita ação (~250 energia por dia, ~6 TB gravados) e você diz que ela tem cerca de 2 anos. Isso deve estar dentro da garantia!

Meu conselho é

  • faça backup de todos os seus dados imediatamente (embora você diga que já cuidou disso)
  • remova/substitua o SSD (dependendo do seu orçamento, é claro)
  • envie o disco ao fabricante para substituição

Seu "Fino S70"o disco deve ser coberto pela garantia de 5 anos daPoder do Silício garantia

Basta enviá-losuma solicitação de RMA aqui.

Responder2

Algum tempo antes de 11 de maio de 2017, você atualizou o firmware do SSD. No entanto, uma nova versão foi lançada emSetembro de 2017e você deve aplicá-lo usando o Windows.


Execute fstrimpara descartar blocos não utilizados no sistema de arquivos:

$ sudo fstrim --verbose --all
/mnt/c: 16 EiB (18446744073709551615 bytes) trimmed
/mnt/e: 16 EiB (18446744073709551615 bytes) trimmed
/: 23.4 GiB (25132920832 bytes) trimmed

No meu caso, os resultados para partições do Windows 10 /mnt/cestavam /mnt/efora deste mundo. Então verifiquei os arquivos e nenhum dano foi causado aos dados.


Execute fsck -fem seu SSD após inicializar com um Live-USB quando a partição não estiver montada. Outra opção é executar fsck -fa partir do grub -Como fsck disco rígido enquanto o disco rígido está desmontado, usando um pendrive inicializável?.


Conforme mencionado nos comentários, um cabo SATA defeituoso pode causar erros. Mas comoesta respostaressalta, uma conexão solta também pode causar erros. Para descartar uma conexão ruim/frouxa, remova os plugues do seu SSD, sopre ar comprimido sobre eles e os pinos macho da unidade e recoloque os cabos com firmeza.


Quanto vale o seu tempo?

A última pergunta é quanto vale o seu tempo. Supondo que você gastou 10 horas neste problema, ele custará US$ 5/hora porque muitos novos SSDs SATA III de 120 GB podem ser adquiridos emebay.com


Atualização de 23 de fevereiro de 2018

Eu li todas as outras respostas esta noite. Uma resposta diz para devolvê-lo. Mas se você fizer isso e eles não encontrarem nada de errado, eles simplesmente o enviarão de volta e você ficará sem dirigir por 2 semanas a 2 meses.

Outra resposta diz que o smartctl relata que não há nada de errado com a unidade.

Nesta resposta sugeri executar fsck -fe você respondeu que nenhum erro foi relatado.

Execute fsckcada inicialização

Como um compromisso entre a resposta negativa (devolva) e a resposta positiva (nada está errado), minha inclinação seriaexecute fsckem cada inicialização. Se um erro for descoberto, a inicialização será pausada e você poderá ler a mensagem de erro. Para resumir o uso do link:

sudo tune2fs -c 1 /dev/sdX

Nota: substitua Xpela letra da sua unidade, ou seja, a, b, etc..

Se depois de um mês sem erros, altere o valor de 1para 30o que é típico para a maioria dos sistemas, acredito. Em um SSD típico, ele fsckserá executado rapidamente.

Limpe e recoloque os cabos SATA

Outros mencionaram a substituição do cabo SATA, que é problemático para um laptop. Como solução, considere desconectar todos os cabos do lado do inversor, usando ar comprimido nas extremidades macho e fêmea e, em seguida, reconectar os cabos com firmeza.

Responder3

Não há nada de errado com sua unidade. Todos os testes passam. Você está simplesmente interpretando mal os dados SMART.

Em primeiro lugar, a primeira captura de tela contém dados brutos e você não pode tirar conclusões sobre isso. Não tenho ideia da utilidade que seu criador pensa que os dados teriam para alguém, mas na verdade não significam nada. A menos que as colunas significativas possam ser alcançadas rolando para a direita na janela ou algo assim.

Deixe-me explicar as colunas do relatório SMART (o último relatório que você postou).

  • Nome do atributo: nome da métrica
  • Valor: valor atual, quanto maior melhor. Os valores geralmente vão de 100, onde 100 = melhor, mas pode-se usar qualquer escala, desde que quanto maior, melhor. Mesmo que a métrica seja algo como “taxa de erro”, ela é normalizada para que valores mais altos signifiquem taxas de erro mais baixas.
  • Pior: pior valor observado, quanto maior melhor.
  • Thresh: se o valor cair abaixo disso, é uma condição de falha. Em ou acima = aprovado.
  • Tipo: o que uma condição de falha significaria para esta métrica.
    • Old_age: esta métrica é indicativa da idade/uso da unidade, não de um problema específico.
    • Pré-falha: esta métrica é indicativa de um problema potencial com a unidade, aumentando a chance de falha da unidade.
  • When_failed: Quando entrou no modo de falha, se alguma vez
  • Raw_value: medição interna da unidade que contribuiu para o valor - não é útil para o usuário final e valores mais baixos ou mais altos não indicam necessariamente melhor ou pior.

Para abordar algumas áreas específicas do relatório:

Resultado do teste de autoavaliação de saúde geral SMART: APROVADO

Isso reflete tudo que passou. Nenhuma das métricas medidas jamais entrou em estado de falha.

O registro de “erros” é relativamente típico de uma unidade. Isso não indica necessariamente erros irrecuperáveis ​​ou mesmo problemas com a própria unidade; seus relatórios são vagos, então você não pode dizer o que realmente aconteceu, exceto que foi durante a transferência do DMA no controlador, mas se algo fosse importante, seria refletido no relatório geral de saúde. Em particular, estes podem ser algo bastante inocente, como gravações que foram canceladas no final do controlador ou o sistema operacional solicitando algum recurso durante o carregamento que a unidade não suporta, o que pode ser totalmente normal ao testar os recursos do dispositivo.

Finalmente, uma observação sobre erros CRC ou taxas de erro: todas as unidades têm uma taxa de erro. As unidades armazenam dados em densidades tão altas que um certo número de erros de bits é esperado e projetado para isso, usando código de correção de erros. O código de correção de erros garante que um certo número de erros de bits por bloco de bits possa ocorrer e ser 100% corrigido. A unidade aplica constantemente o código de correção de erros o tempo todo, e o código de correção de erros é projetado para que a chance de umirrecuperávelo erro que ocorre aleatoriamente é muito baixo (por exemplo, significativamente menos provável do que ganhar na loteria) em uma unidade que funciona bem. Se você vir uma taxa de erro em alguma estatística e ela for tratada como se não fosse grande coisa, é porque não é, serão apenas erros corrigidos.

Responder4

Como você tem apenas erros de WRITE DMAecurtoetestes longos não mostram erros.

E como o DMA trata do acesso direto à memória, tente descobrir se o BIOS possui um teste de diagnóstico de hardware separado e tente os testes relacionados à memória.

Se não houver um teste de BIOS incorporado disponível, consulte o site de suporte do fabricante se um diagnóstico de hardware offline estiver disponível (por exemplo: arquivo ISO inicializável para gravar em CD ou pendrive)

(BTW: Um CD do Ubuntu também possui diagnóstico de memória)

Como a gravação DMA é IO, eu tentaria substituir o cabo SATA e verificar se nenhum novo número de erro foi adicionado depois disso (o último está aqui 298, mas mais podem ser adicionados agora)

informação relacionada