Moin!
Nun ist es schon wieder passiert, daher sehe ich mich veranlasst der Sache auf den Grund zu gehen.
Ich will systematisch versuchen den Fehler zu finden, wenn möglich die Daten wiederherzustellen und den Server wieder aufbauen.
Ich will vor allem rausfinden was passiert ist und meine Datenwiederherstellungsskills etwas schärfen.
Wenn die ggf. auffindbaren Logfiles nichts ergeben, dann mußt du dich mehr oder weniger mal auf die Suche nach Hardwaredefekten machen.
Denn wenn ein Server unter Last unvermittelt und unter Datenverlust abstürzt, dann ist das nicht normal. Und auch deine Datenwiederherstellungsskills sind das allerletzte, was ich da schärfen würde, denn Datenwiederherstellung ist ganz einfach: Backup wieder einspielen. Und gleichzeitig macht es so überhaupt keinen Spaß, das regelmäßig tun zu müssen, nur weil irgendein seltsamer Faktor im Server bei hoher Last mal wieder das gesamte Dateisystem in den Abgrund gerissen hat.
Also: Hardware-Debugging-Skills schärfen.
Du solltest mit einem intensiven Test des installierten RAM beginnen. Wenn da irgendwo eine Speicherzelle defekt ist und dir Programmcode "versaut", der dann zum Absturz führt, die Speicherzelle aber nur bei hoher Speicherauslastung benutzt wird, würde das auf dein Schadensbild passen.
Schritt 2: Reproduzierbarkeit schaffen. Wenn du den Fehler mit einigermaßener Zuverlässigkeit wiederholen kannst, kannst du im dritten Schritt eingebaute Hardwarekomponenten einzeln austauschen und sehen, welche ggf. verantwortlich ist.
An einen installierten Softwarefehler glaube ich nicht so wirklich.
- Sven Rautenberg
"Love your nation - respect the others."