Christian Seiler: Ausfallbericht SELFHTML-Server Ve, 09.01.2010

Beitrag lesen

Hallo!

Ich habe den Server Ve gerade eben neu gestartet. Der Server war
hängengeblieben. Laut Logfiles waren die ersten Probleme um bereits
01:00:00 anzutreffen.

Betroffene Systeme
------------------

Auf dem Server Ve laufen folgende öffentliche Dienste:

* Dokumentation SELFHTML auf de.selfhtml.org
 * SELFHTML aktuell auf aktuell.de.selfhtml.org

Ursache
-------

Mehrere Prozesse haben angefangen, unnötigerweise immer mehr CPU- und
RAM-Resourcen zu verwenden, dass der Server vollständig überlastet war und
nicht mehr korrekt reagieren konnte.

Da das Monitoring im Moment ausschließlich auf dem Server Ve läuft, wurden
wir Administratoren unglücklicherweise nicht automatisch informiert.

Entstandener Schaden
--------------------

Der Server war für einige Zeit nicht erreichbar. Es wurde jedoch kein
dauerhafter Schaden angerichtet.

Unmittelbare Maßnahmen
----------------------

Ich habe den Server hart neu gestartet, um die Probleme zu beseitigen.

Maßnahmen für die Zukunft
-------------------------

Um einen weiteren derartigen Ausfall zu verhindern werden wir:

* Kurzfristig: Die aktuellen Limits für CPU-Zeit und belegbaren Speicher
   für Prozesse revidieren und überprüfen, warum die bisherigen Limits
   unzureichend waren, das Problem zu verhindern und dies, falls möglich,
   korrigieren.

* Langfristig: Tools evaluieren, die bessere Abhilfe gegen derartige
   Probleme versprechen.

Weitergehende Maßnahmen:

* Das Monitoring dezentralisieren, um derartige Probleme zu verhindern.

Viele Grüße,
Christian Seiler
SELFHTML e.V.
Serveradministration