Ich habe schon so viele SSDs ausgetauscht, dass ich nicht noch einmal danach fragen möchte. Aber wenn die SSD tatsächlich kaputt ist, kostet mich ein einziger Serverausfall ungefähr 500 $.
Wie stelle ich sicher, dass die SSD tatsächlich kaputt ist?
Kann ich die Festplatte einfach wie unter Windows neu formatieren? Die Festplatte ist gemountet.
Bevor ein loser Pin den Server zu oft neu startet, scheint es, dass alle SSDs dort beschädigt wurden.
/bin/ls: cannot access cache-zch-5666-cache.txt: Input/output error
/bin/ls: cannot access cache-zch-4970-cache.txt: Input/output error
/bin/ls: cannot access cache-zch-4782-cache.txt: Input/output error
./ cache-zch-4782-cache.txt cache-zch-5666-cache.txt
../ cache-zch-4970-cache.txt
root@host [/home2/investgr1/public_html/hello/cache/zch]# rm *
rm: cannot remove `cache-zch-4782-cache.txt': Input/output error
rm: cannot remove `cache-zch-4970-cache.txt': Input/output error
rm: cannot remove `cache-zch-5666-cache.txt': Input/output error
root@host [/home2/investgr1/public_html/hello/cache/zch]#
Antwort1
Überprüfen Sie zunächst die Ausgabe von, dmesg
wie ich in Ihrem vorgeschlagen habevorherige Frage. Wenn der Kernel Probleme bei der Kommunikation mit dem Laufwerk hat, wird dies dort gemeldet.
Das bedeutet nicht unbedingt, dass das Laufwerk defekt ist. RAM ist ein weiterer häufiger Übeltäter, also führen Sie einen Speichertest durch. Ich verwendeUBCDdafür, aber es gibt viele Alternativen.
Wenn der Speichertest kein Problem ergibt und keine Fehler in auftreten dmesg
, Sie aber trotzdem E/A-Fehler erhalten, sind wahrscheinlich fehlerhafte Sektoren auf dem Laufwerk vorhanden. Um dies festzustellen, führen Sie fsck -c
oder fsck -cc
auf der Festplatte aus. Der erste Test ist besser für SSDs geeignet, da es sich um einen Nur-Lese-Test handelt, er kann jedoch nicht so viele Probleme finden oder beheben wie der Lese-und-Schreib-Test, den Sie mit erhalten -cc
.
Letzten Endes,man kann nichts Negatives beweisen, Sie können also nie mit absoluter Sicherheit sagen: „Diese SSD ist nicht kaputt.“
Um das Problem noch schlimmer zu machen, ist es möglich, dass ein fsck
(oder badblocks
) Test keine Fehler ergibt, das Symptom aber verschwindet. Dies liegt daran, dass moderne wiederbeschreibbare Festplattenlaufwerke über Selbstreparaturfunktionen verfügen, die einspringen, wenn Sie dem Laufwerk zeigen können, dass ein Problem vorliegt. Allerdings verhindern solche Funktionen normalerweise, dass Sie die Auswirkungen fehlerhafter Sektoren überhaupt sehen. Wenn also tatsächlich fehlerhafte Sektoren das Problem sind, kann dies bedeuten, dass der Pool an freien Sektoren des Laufwerks aufgebraucht ist.
Antwort2
Führen Sie es badblocks -n -v
auf einer oder mehreren Partitionen aus. Ich bin sicher, dass dies auf einer SSD nicht so sinnvoll ist (die Blöcke sind virtuell und SSDs verwalten ihre fehlerhaften Blöcke selbst), aber wenn das Gerät Probleme hat, kann der Badblock-Prozess diese auslösen.
Das heißt: Wenn badblocks
auf einer SSD fehlerhafte Blöcke gefunden werden, ist die SSD defekt.
Ich habe keine Referenzen gefunden, die diese These stützen, aber hier ist meine Begründung:
badblocks -n
führt einen Lese-/Schreibtest der gesamten Partition auf niedriger Ebene durch.- SSDs verwalten ihre eigenen fehlerhaften Blöcke intern und verwenden außerdem Wear Leveling, um die Nutzung zu verteilen. Die an das System gesendeten Blockadressen sind virtuell. Daher sollte keiner dieser Blöcke fehlerhaft sein, und wenn doch, ist eine Funktion des Laufwerks ausgefallen.
Wie Warren Young sagt, ist es schwierig, hier etwas Negatives zu beweisen. Nur weil der Test erfolgreich ist, heißt das also nicht, dass das Laufwerk nicht kaputt ist.
Beachten Sie, dassSie müssen zuerst die Partitionen aushängen, was bedeutet, dass Sie eine Live-CD oder etwas Ähnliches verwenden müssen, wenn sich Ihr Root-Dateisystem auf der SSD befindet.