![Dateibeschädigung beim Lesen/Schreiben auf dem 2.6.32-22-Server (kommt bei vielen Kerneln vor)](https://rvso.com/image/515048/Dateibesch%C3%A4digung%20beim%20Lesen%2FSchreiben%20auf%20dem%202.6.32-22-Server%20(kommt%20bei%20vielen%20Kerneln%20vor).png)
Ich habe ein Problem, bei dem der Server nach einer gewissen Zeit (~Woche/ein paar Tage) anfängt, beschädigte Daten zu lesen. Wenn ich beispielsweise nach einem Neustart eine SHA1SUM-Datei ausführe, bleibt sie gleich. Nach einer Weile bekomme ich jedoch Segmentierungsfehler und von da an erhalte ich jedes Mal, wenn ich diese Datei lese, eine andere SHA1SUM-Datei.
Ich habe SMART mit langen Tests überprüft und einen erweiterten Memtest86+ (12 Durchläufe) ausgeführt.
Mein LSPCI ist wie folgt:
00:00.0 Host-Brücke: Advanced Micro Devices [AMD] RS780 Host Bridge 00:01.0 PCI-Brücke: Advanced Micro Devices [AMD] RS780 PCI-zu-PCI-Brücke (int gfx) 00:06.0 PCI-Brücke: Advanced Micro Devices [AMD] RS780 PCI-zu-PCI-Brücke (PCIE-Port 2) 00:07.0 PCI-Brücke: Advanced Micro Devices [AMD] RS780 PCI-zu-PCI-Brücke (PCIE-Port 3) 00:11.0 SATA-Controller: ATI Technologies Inc SB700/SB800 SATA-Controller [AHCI-Modus] 00:12.0 USB-Controller: ATI Technologies Inc SB700/SB800 USB OHCI0 Controller 00:12.1 USB-Controller: ATI Technologies Inc SB700 USB OHCI1 Controller 00:12.2 USB-Controller: ATI Technologies Inc SB700/SB800 USB EHCI-Controller 00:13.0 USB-Controller: ATI Technologies Inc SB700/SB800 USB OHCI0 Controller 00:13.1 USB-Controller: ATI Technologies Inc SB700 USB OHCI1 Controller 00:13.2 USB-Controller: ATI Technologies Inc SB700/SB800 USB EHCI-Controller 00:14.0 SMBus: ATI Technologies Inc SBx00 SMBus-Controller (Rev. 3c) 00:14.1 IDE-Schnittstelle: ATI Technologies Inc SB700/SB800 IDE Controller 00:14.3 ISA-Brücke: ATI Technologies Inc SB700/SB800 LPC-Hostcontroller 00:14.4 PCI-Brücke: ATI Technologies Inc SBx00 PCI-zu-PCI-Brücke 00:14.5 USB-Controller: ATI Technologies Inc SB700/SB800 USB OHCI2 Controller 00:18.0 Host-Bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] HyperTransport-Konfiguration 00:18.1 Host-Bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Adresszuordnung 00:18.2 Host-Bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] DRAM-Controller 00:18.3 Host-Bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Sonstige Steuerung 00:18.4 Host-Bridge: Advanced Micro Devices [AMD] K10 [Opteron, Athlon64, Sempron] Link-Steuerung 01:05.0 VGA-kompatibler Controller: ATI Technologies Inc Radeon HD 3300 Graphics 01:05.1 Audiogerät: ATI Technologies Inc RS780 Azalia-Controller 02:00.0 Ethernet-Controller: Atheros Communications Atheros AR8121/AR8113/AR8114 PCI-E Ethernet Controller (Rev. b0) 03:00.0 FireWire (IEEE 1394): VIA Technologies, Inc. Gerät 3403
Ich könnte wirklich Hilfe gebrauchen. Haben Sie eine Idee, woran das liegen könnte? Es frustriert mich wirklich, da es scheinbar völlig zufällig ausgelöst wird und nicht verschwindet, bis ich neu starte. Ich verwende auf diesem Server auch KVM für die Virtualisierung sowie MD für Software-RAID und der Prozessor ist ein Phenom II X4 965. Ich glaube jedoch nicht, dass es am Software-RAID liegt, da dies auch Dateien betrifft, die auf Nicht-RAID-Partitionen gehostet werden, also weiß ich es nicht.
Aktualisieren21. Juni 10 Ok, habe gerade das Motherboard austauschen lassen. Immer noch der gleiche Fehler. Ich kann keine CPU-Fehler finden; alle Festplatten melden sich mit dem Smart-Test einwandfrei. Hat irgendjemand irgendeine Idee, was das sein könnte? Ich reiße mir die Haare aus.
Aktualisieren22. Juni 10 Also habe ich die Protokolle überprüft und ein anderes Dateisystem ausprobiert, immer noch das Gleiche. Das ist übrigens auch alles auf der Host-VM.
Antwort1
Mein Instinkt sagt mir, dass es sich um ein Hardwareproblem handelt, möglicherweise thermisch bedingt (da es nach einer gewissen Laufzeit auftritt). Höchstwahrscheinlich liegt ein Problem mit der Southbridge oder verwandter Hardware vor.
Erwägen Sie, einige umfangreiche Transaktionstests auf der Southbridge durchzuführen oder einfach das Motherboard auszutauschen.
Wenn Ihr Betriebssystem stabil bleibt, aber zufällige E/A-Fehler auftreten, schließt dies normalerweise die CPU/den Speicher aus, da Fehler in diesen Bereichen dazu führen, dass das Betriebssystem zusammen mit der anderen Software abstürzt und durchbrennt. Der Großteil des Kernels wird jedoch beim Booten von der Festplatte gelesen und nie ausgelagert, sodass ein Linux-System überraschend stabil sein kann, selbst wenn es nicht richtig von der Festplatte lesen kann.
Antwort2
Kommt es zu Beschädigungen auf dem Host selbst oder auf Gastcomputern? Es gibt einen bekannten Fehler in qemu-kvm, der zu Datenbeschädigungen auf großen virtuellen Festplatten führt (siehehttps://bugs.launchpad.net/ubuntu/+source/qemu-kvm/+bug/574665Zum Beispiel)
Antwort3
Ich stimme mit @pehrs überein, dass es sich lohnt, den thermischen Aspekt zu untersuchen, da das Problem mit der Zeit immer schlimmer wird. Was für einen Server haben Sie? Die meisten Rackmounts sind heutzutage mit einer ganzen Reihe von Sensoren ausgestattet, mit denen sich der Zustand der Hardware überwachen lässt. Schauen Sie sich anlm-sensoren. Handelt es sich um einen Dell-Server,OMSAPaket kann hilfreich sein. Ich bin sicher, dass auch andere große Player ihre eigenen proprietären Pakete haben.
Ich könnte auch noch ein paar andere Ideen einbringen – diese passen nicht wirklich zu dem von Ihnen beschriebenen Szenario, dass das Problem erst nach einer Weile auftritt, aber sie können nicht schaden.
Was die Fehlerprotokolle betrifft, erhalten Sie Fehlermeldungen in den Protokollen vom Datenträger oder RAID-Subsystem? Oder in dmesg? Das LinuxSoftware-RAID HOTWOenthält einige Informationen zu den Fehlerarten, nach denen Sie suchen sollten. Ein defektes Kabel wird in den SMART-Selbsttests des Laufwerks möglicherweise nicht angezeigt, aber Sie werden auf jeden Fall einige Fehlermeldungen protokolliert sehen.
Wie ist die RAID-Konfiguration? Ist irgendetwas in /proc/mdstat? Wenn der Server beispielsweise ein RAID 5 mit drei Laufwerken hätte und eines der Laufwerke defekt wäre, könnte das Probleme verursachen.
Überprüfen Sie außerdem die Firmware-Revision für Ihr Motherboard/Ihre SCSI-Karte/usw. und prüfen Sie, ob sie auf dem neuesten Stand ist oder ob Fehler im Zusammenhang mit der Festplatten-E/A behoben wurden.