Beim Kopieren großer Dateien (50+ GB) von einer NVMe-Festplatte auf eine SATA-Festplatte mit 7200 U/min wird in den Protokollen eines vollständig gepatchten Ubuntu 20.04 der folgende Fehler angezeigt:
Aug 08 00:45:59 host kernel: ata6.00: exception Emask 0x20 SAct 0x0 SErr 0x0 action 0x6 frozen
Aug 08 00:45:59 host kernel: ata6.00: irq_stat 0x20000000, host bus error
Aug 08 00:45:59 host kernel: ata6.00: failed command: WRITE DMA EXT
Aug 08 00:45:59 host kernel: ata6.00: cmd 35/00:08:30:a2:e0/00:00:e8:00:00/e0 tag 23 dma 4096 out
res 50/00:00:00:00:00/00:00:00:00:00/00 Emask 0x20 (host bus error)
Aug 08 00:45:59 host kernel: ata6.00: status: { DRDY }
Aug 08 00:45:59 host kernel: ata6: hard resetting link
Aug 08 00:46:00 host kernel: ata6: SATA link up 6.0 Gbps (SStatus 133 SControl 300)
Aug 08 00:46:00 host kernel: ata6.00: configured for UDMA/133
Aug 08 00:46:00 host kernel: ata6: EH complete
ata6.00
ist die Festplatte, auf die geschrieben wird.
Das Problem tritt zeitweise auf. Manchmal tritt es 24 Stunden lang nicht auf, manchmal ein paar Mal pro Stunde. Oftmals wird die Festplatte wiederhergestellt, aber manchmal wird das Dateisystem einfach beschädigt und muss ausgehängt, repariert (falls möglich) und erneut eingehängt werden.
Was ich versucht habe:
- Ich habe 3 verschiedene Festplattenmarken ausprobiert. Bei allen besteht das gleiche Problem.
- Ich vermutete ein Hardwareproblem. Ich habe das Motherboard und die SATA-Kabel ausgetauscht. Nichts davon hat geholfen.
- Ich habe einen anderen Server mit identischer Konfiguration. Das Problem tritt dort nicht auf. Gleiche Arbeitslast.
- Ich habe noch einen anderen Server mit einer völlig anderen Konfiguration (Intel vs. AMD). Das Problem tritt dort auf. Gleiche Arbeitslast.
- Ich habe NCQ über deaktiviert
echo 1 > /sys/block/sda/device/queue_depth
. Hat nicht geholfen.
Mir sind die Ideen ausgegangen ...
Dies sind alles Komponenten in Rechenzentrumsqualität. Angesichts der Schritte, die ich unternommen habe, gehe ich davon aus, dass es sich nicht um einen Herstellungsfehler der Hardware handelt.
Könnte dies mit der Software/dem Betriebssystem/BIOS zusammenhängen?
Irgendwelche Ideen, was ich sonst noch versuchen sollte?
Antwort1
Vielleicht ist das eher ein Problem der Betriebstemperatur? Wenn die Festplatte ständig in Gebrauch ist, wird ihre physikalische Position und das Verhältnis von Wärmegewinn zu -verlust zu hoch, was zu unregelmäßigem Verhalten führt?
Bei neueren Kerneln wie Ihrem kann die Laufwerkstemperatur in Sysfs unter diesem Pfad eingegeben werden:
/sys/class/hwmon/*
Stellen Sie sicher, dass das drivetemp
Modul mit geladen ist modprobe drivetemp
.
Sie könnten erwägen, die Dateien hier zu überwachen und erneut mit dem Kopieren großer Dateien zu beginnen. Die Kernel-DokumentationHiergibt einen Hinweis darauf, wie diese Dateien zu interpretieren sind.
Sie enthalten nützliche Werte wie die minimalen/maximalen Betriebstemperaturen. Einige Treiber bieten außerdem Alarmanzeigen, bei denen es sich um chipabhängige Alarme handelt, die bei einem Fehler ausgelöst werden.
Antwort2
Scheint durch ein Upgrade auf Ubuntu 21.04 behoben zu sein. Keine Ahnung, warum. Der Server läuft jetzt stabil ohne ATA-Probleme.