Durchschnittliche Leerlauflast des Ubuntu 14.04.1-Servers 1,00

Durchschnittliche Leerlauflast des Ubuntu 14.04.1-Servers 1,00

Ich zerbreche mir den Kopf. Ich hoffe, dass mir jemand bei der Fehlerbehebung helfen kann.

Ich habe einen Dell PowerEdge SC1435-Server, der eine Zeit lang mit einer früheren Version von Ubuntu lief. (Ich glaube, es war 13.10 Server x64)

Ich habe das Laufwerk (SSD) vor Kurzem neu formatiert und Ubuntu Server 14.04.1 x64 installiert.

Während der Installation schien alles in Ordnung zu sein, aber die Maschine blieb beim ersten Booten am Ende der Kernel-Ausgabe hängen, kurz bevor ich erwarten würde, dass der Bildschirm gelöscht wird und eine Anmeldeaufforderung erscheint. Ich habe am Ende der Kernel-Ausgabe keine offensichtlichen Fehler gesehen. (Es gab eine Meldung über „keinen CPU-Temperatursensor verwenden, der unzuverlässig ist“, aber diese scheint da zu sein, unabhängig davon, ob gebootet wird oder nicht.)

Ich habe ihm gute 5 Minuten Zeit gegeben und dann einen Neustart erzwungen. Zu meiner Überraschung bootete es etwa 1-2 Sekunden nach der BIOS-Veröffentlichung zur Anmeldeaufforderung. Ich startete erneut neu und es schien ein paar zusätzliche Sekunden zu pausieren, wo es vorher hängen geblieben war, ging dann aber zum Anmeldebildschirm über. Beim erneuten Neustart ging es wieder schnell. An diesem Punkt dachte ich, es sei nur einer dieser zufälligen einmaligen Störungen, die ich nie erklären würde, also ging ich weiter.

Ich habe ein paar Pakete installiert (genau dieselben Pakete auf derselben Betriebssystemversion auf anderer Hardware), habe apt upgrade und dist-upgrade ausgeführt und dann neu gestartet. Es schien wieder zu hängen, also bin ich zum Rechenzentrum gefahren und habe eine Konsole angeschlossen, nur um einen leeren Bildschirm zu bekommen. Erneut einen Neustart erzwungen. (Habe außerdem IPMI für Remote-Neustart eingerichtet und den Grub-Recordfail entfernt, damit es nicht darauf warten muss, dass ich die Eingabetaste drücke!)

Das war gestern Abend sehr spät. Ich kam nach Hause, führte ein paar Neustarts ohne Probleme durch und ging dann ins Bett. Heute habe ich noch einmal einen Neustart durchgeführt, um es zu überprüfen, und wieder stürzte es irgendwo ab. Ich habe per Fernzugriff einen erzwungenen Neustart durchgeführt.

An diesem Punkt begann ich, ein wenig tiefer zu graben und bemerkte sofort etwas wirklich Seltsames.

top - 14:18:35 up 8 min,  1 user,  load average: 1.00, 0.85, 0.45
Tasks: 148 total,   1 running, 147 sleeping,   0 stopped,   0 zombie
%Cpu(s):  0.1 us,  0.3 sy,  0.0 ni, 99.6 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem:  33013620 total,   338928 used, 32674692 free,     9740 buffers
KiB Swap:  3906556 total,        0 used,  3906556 free.    47780 cached Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
    1 root      20   0   33508   2772   1404 S   0.0  0.0   0:03.82 init
    2 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kthreadd
    3 root      20   0       0      0      0 S   0.0  0.0   0:00.00 ksoftirqd/0
    5 root       0 -20       0      0      0 S   0.0  0.0   0:00.00 kworker/0:0H
    6 root      20   0       0      0      0 S   0.0  0.0   0:00.00 kworker/u16:0
    8 root      20   0       0      0      0 S   0.0  0.0   0:00.24 rcu_sched
    9 root      20   0       0      0      0 S   0.0  0.0   0:00.02 rcuos/0
   10 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/1
   11 root      20   0       0      0      0 S   0.0  0.0   0:00.00 rcuos/2

Dieser Server ist völlig unbenutzt und im Leerlauf, hat aber eine 1-Minuten-Durchschnittslast von genau 1,00? Wenn ich mir die anderen Werte anschaue – die 5-Minuten- und 15-Minuten-Werte scheinen ebenfalls in Richtung 1,00 zu gehen, also gehe ich davon aus, dass sie alle irgendwann 1,00 erreichen werden. (Der „1 Running“ ist der oberste Prozess)

Das ist mir noch nie passiert und da ich keine Ahnung habe, wodurch der Startabsturz verursacht wird, gehe ich an dieser Stelle davon aus, dass die beiden wahrscheinlich zusammenhängen.

Ich möchte die Ursache für diesen falschen Lastdurchschnitt und mein Absturzproblem ermitteln (und hoffentlich beseitigen).

Bisher konnte ich nicht feststellen, welcher Prozess möglicherweise auf eine Ressource irgendeiner Art wartet, um diesen Lastdurchschnitt zu generieren.

Ich wäre sehr dankbar, wenn mir jemand bei der Suche helfen könnte.

Oben werden alle Prozesse angezeigt, die praktisch immer im Ruhezustand sind. Einige tauchen gelegentlich oben auf, aber ich denke, das ist ziemlich normal. Die CPU-Auslastung wird meistens mit 100 % IDLE angezeigt, mit sehr gelegentlichen Einbrüchen auf 99 % oder so.

nmon zeigt mir nicht viel. es sieht alles einfach untätig aus.

iotop zeigt praktisch überhaupt keinen Datenverkehr an. (wiederum sehr gelegentliche Festplattenzugriffe)

Die Unterbrechungsfrequenz scheint niedrig zu sein. Soweit ich sehen kann, weit unter 100/Sek.

Ich habe zahlreiche Google-Diskussionen gesehen, in denen Folgendes vorgeschlagen wurde:

echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us

..Kein Effekt.

Der RAM im Server ist ECC und der Test ist bestanden.

Die Serverinstallation war „minimal“ (Option F4), wobei während der Installation OpenSSH-Server angekreuzt war. Anschließend wurden einige Pakete installiert, darunter vim, bcache-tools, bridge-utils, qemu, software-properties-common, open-iscsi, qemu-kvm, cpu-checker, socat, ntp und nodejs. (Ich denke, das war es schon)

Ich habe versucht, das bcache-Kernelmodul zu deaktivieren und zu entfernen. Keine Wirkung. Habe den iscsi-Dienst gestoppt ... keine Wirkung. (obwohl auf diesem Server noch absolut nichts konfiguriert ist)

Ich werde es dabei belassen, bevor es unfassbar lang wird. Wenn mir jemand dabei helfen könnte, das herauszufinden, wäre ich sehr dankbar.

Prost,

James

verwandte Informationen