Christian Seiler: http://de.selfhtml.org/ down?

Beitrag lesen

Hallo,

liegt das an mir oder ist http://de.selfhtml.org/ tatsächlich nicht erreichbar momentan?

Laut Monitoring hat sich um 01:00 auf dem Server ve.selfhtml.org (da liegen de.selfhtml.org, aktuell.de.selfhtml.org, verein.de.selfhtml.org, www.selfhtml.org und einige interne Geschichten sowie sonstiger Krams) der Load plötzlich auf 120 erhöht - woraufhin der Server einfach komplett in die Knie gegangen ist. Warum das passiert ist weiß ich noch nicht, ich versuche gerade, ihn wieder hochzufahren, dummerweise macht mir ein Softwareproblem (Hardware ist soweit ich sehen kann noch vollkommen in Ordnung) einen Strich durch die Rechnung...

So, läuft wieder, Details kommen morgen.

Mal ein paar Hintergrundinfos: Am Mittwoch morgen, gegen 01:00 nachts, sind einige Prozesse auf dem Server Ve aus dem Ruder gelaufen und haben alle Systemresourcen (CPU, RAM) aufgebraucht, was den Server letztendlich in die Knie gezwungen hat (weil er mit dem Swappen nicht mehr nachgekommen ist). Das Monitoring ist gleich angesprungen und hat sofort angefangen, die entsprechenden Mails zu verschicken. Dummerweise habe ich den ganzen Mittwoch keine Zeit gehabt (nicht einmal, um die Mails von SELFHTML zu lesen), bis ich spätnachmittags nach Hause gekommen bin - ich vermute Sven ging es ähnlich.

Als ich mich dann endlich um den Server kümmern konnte habe ich ihn neu starten wollen. Leider wollte der Server nicht mehr hochfahren. Der Hintergrund war, dass ich während eines der letzten Systemupdates das Paket 'udev' aktualisiert habe, im Kernel aber noch eine veraltete Option gesetzt war, die sich mit der neuen 'udev'-Version nicht vertragen hat. Das hat letztendlich dazu geführt, dass unmittelbar am Anfang des Bootens nichts mehr in /dev vorhanden war und er deswegen nicht mehr mochte. Nach langem Rumspielen habe ich es dann geschafft, Remote den Kernel austauschen zu können und danach ist der Server wieder hochgefahren.

Um sowas später besser verhindern oder zumindest genauer diagnostizieren zu können, mal ein paar Fragen in die Runde:

Ich habe bereits einige Limits gesetzt (ulimit) an einigen Stellen, was CPU-Zeit und RAM-Verbrauch angeht, aber offensichtlich nicht genügend. Kennt jemand eine gute Übersicht, wie man diese Limits am besten tuned für bestimmte Umgebungen?

Und zur Diagnose: Kennt jemand ein brauchbares Tool, das anspringt, wenn der Load extrem hoch ist und dann Informationen über alle laufenden Prozesse loggt (welche das sind, Anzahl an bisher verbrauchten Resourcen, etc.)? In diesem Fall kann ich leider nicht genau eingrenzen, warum da etwas schiefgegangen ist und woran es gehapert hat, weil mir genau diese Informationen fehlen.

Viele Grüße,
Christian