Alexander (HH): Datenarchivierung wie?

Beitrag lesen

Moin Moin!

ich stelle mir gerade die Frage wie man im digitalen Zeitalter aktuell seine wichtigsten Daten sichern sollte?

Folgende Fragen konkret sind mir in denn Kopf gekommen:

-> Datensicherung auf DVD / Blue ray?

Kapazität weit unter Festplatte. Wie hoch ist wohl der DVD-Stapel, um ein 3 TByte-Array zu sichern? Wie hoch wird der Stapel werden, um in ein paar Jahren 30 TByte zu sichern? Wie lange dauert es, die Medien zu beschreiben? Wie oft willst Du das machen? Wie oft wirst Du es tatsächlich machen?

Lebensdauer: Je nach Kristallkugel des Herstellers 10 bis 100 Jahre bei optimalen Lagerbedingungen. Real deutlich weniger, bei CD-Rs habe ich schon die ersten Ausfälle gehabt.

-> Archivable Datenträger (z.b. Verbatim DVD Gold Archival) bzw vlt gibts auch blueray alternativen?

Mehr Geld für eine etwas stabilere Chemie, aber das gleiche Problem.

Andere Medien ziehst Du nicht in Betracht?

Tapes halte ich mittlerweile für ein echtes Problem, die professionellen sind sauteuer und werden sehr schnell ausgewechselt, die für Amateure sind nicht wirklich zuverlässig.

Festplatten sind stoßempfindlich und mögen keine starken Magnetfelder, aber ansonsten recht sicher. Sobald sie per SMART oder durch Laufgeräusche Fehler melden, sollte man sie schleunigst tauschen. Ansonsten braucht man teure Datenretter. Die können allerdings auch noch bei recht massiven Schäden Daten wiederherstellen. Dauerlaufende Platten können nach dem Abschalten manchmal Anlaufprobleme haben, weil die Schmierung nicht perfekt ist. Dauergelagerte Platten können wegen Verharzung der Lager ähnliche Probleme bekommen. Es scheint wohl notwendig zu sein, gelagerte Platten wenigstens einmal im Jahr laufen zu lassen, damit die Lager nicht verharzen.

Mit Flash-Medien fehlen die Jahrzehnte Erfahrung, die man mit Festplatten hat. Recovery ist wohl noch ein echtes Problem, zur Zuverlässigkeit kann ich nicht viel sagen, außer dass ich schon einige ausgefallene USB-Sticks gesehen habe. Wie SSDs sich verhalten, weiß ich nicht.

-> Daten verschlüsslt mit Truecrpyt auf dem Datenträger ablegen

Und wie entschlüsselst Du sie in 30 Jahren, wenn kein Rechner mehr die dann antike Truecrypt-Version laufen lassen kann? Wo bekommst Du die antike Truecrypt-Version und den Schlüssel her? Und nicht zuletzt: Wie sicherst Du den Schlüssel? Wenn der kaputt ist, kannst Du die verschlüsselten Daten komplett vergessen.

-> Wo und vorallem wie sollen die Datenträger gelagert werden? In einer Hülle, lieber offen, in Papier,...? Tresor?

In Stein gemeißelt und auf säurefreies Papier geschrieben. Jedenfalls für Langzeit-Archivierung.

In Stein gemeißelte ägyptische Hieroglyphen sind nach mehreren Jahrtausenden noch lesbar, allein den Schlüssel (die Bedeutung der Zeichen) haben wir Menschen für einige Jahrhunderte verbummelt gehabt.

Mittelalterliche Papiere sind noch recht problemlos lesbar.

-> oder ein NAS mit Raid 1?

Die beste Strategie scheint im Moment zu sein, die Daten regelmäßig auf die jeweils aktuellen Standard-Datenträger umzukopieren und für Redundanz und Backup zu sorgen. Offene Standards helfen ungemein, die Daten lesbar zu halten.

Hast Du schon einmal versucht, von einer 8-Zoll-Diskette aus Großrechner-Zeiten Daten zu lesen? Oder auch nur ein altes Word- oder Wordperfect-Dokument aus DOS-Zeiten von einer 5,25-Zoll-Diskette? Oder ein Bild, dass eine Commodore 1541 in eine 5,25-Zoll-Diskette gemeißelt hat? Problem 1 ist, ein passendes Laufwerk samt Interface aufzutreiben, um die Daten überhaupt zu lesen. Problem 2 ist, aus dem Bytestrom irgendeinen Sinn heraus zu lesen. Daran scheitert es gerade bei alter Software sehr oft, selbst wenn das Medium an sich noch lesbar ist.

20 Jahre alte HTML-Dokumente kann ich immer noch lesen, so lange sie auf einem lesbarem Medium liegen. Auch GIF, JPEG, Windows-BMP, Postscript und LaTeX sind kein Problem.

Redundanz:

JBOD   = Platten stumpf aneinander gereiht -- kein Geschwindigkeitsvorteil, keine Redundanz, kein Kapazitätsverlust
RAID 0 = Stripes -- sehr schnell, KEINE Redundanz, kein Kapazitätsverlust
RAID 1 = Mirror -- schnell, aber 50% Kapazitätsverlust
RAID 5 = Parity-Set -- langsamer als RAID 1, minimal 3 Platten nötig, aber maximal 33% Kapazitätsverlust. Je mehr Platten, desto weniger Kapazitätsverlust. Typischerweise nutzt man 3 bis 5 Platten
RAID 6 = RAID 5 + zusätzliche Paritätsinfos -- verträgt zwei beliebige ausgefallene Platten, minimal vier Platten, maximal 50% Kapazitätsverlust
RAID 10 = RAID 0 gebaut aus 2x RAID 1 - schnell, verträgt zwei ausgefallene Platten, sofern sie nicht im selben RAID-1 liegen. 50% Kapazitätsverlust

Ich sehe für Daten für mich ein RAID-5 als Optimum an, der Geschwindigkeitsverlust ist bei aktueller Hardware im nicht professionellen Einsatz kein Problem. Man kommt mit relativ billigen Platten aus, die nicht extrem hochgezüchtet und damit fehleranfällig sein müssen.

Zum RAID gehört auch die Frage nach dem RAID-Controller, dazu habe ich dieses Jahr schonmal was geschrieben, siehe Archiv.

Ich bevorzuge Software-RAIDs trotz rechnerischer Geschwindigkeitseinbußen, weil ich so weder von einem bestimmten RAID-Controller noch von einer bestimmten Platten-Schnittstelle abhängig bin. Diese Entscheidung hat mir mindestens zweimal erspart, ein RAID neu aus dem Backup rekonstruieren zu müssen.

Backup:

Ich sichere mit rsync + Hardlinks auf eine externe E-SATA-Platte, die knapp 2/3 so groß wie mein Daten-RAID ist. In Zukunft werde ich die Platte noch einmal gegen eine größere austauschen müssen, wenn das Daten-RAID sich füllt. Damit kann ich 10 Tage in die Vergangenheit gehen, das reicht mir.

Wenn man das Backup etwas ernster nimmt, sollte man das Backup-Medium räumlich vom Server trennen. Banktresore bieten sich da an. Dann nutzt man typischwerweise ein rotierendes Backup, bei dem man vier Sets von Backup-Medien im Einsatz hat, davon liegen drei im Banktresor und das vierte Set ist aktiv. Jede Woche rotiert man einmal durch, dann wandert das aktuelle Set in den Banktresor und das älteste Set wird mit neuen Backups überschrieben. (Auch dazu habe ich mal was geschrieben, siehe Archiv.) Damit kommt man 28 Tage in die Vergangenheit, maximal 7 Tage ohne zur Bank zu rennen.

Im Worst Case wird das aktuelle Set auf dem Weg zur Bank zerstört, dann verliert man die letzten 7 Tage, kann aber den Stand von vor 8 bis 28 Tagen rekonstruieren.

Da kann man durch einen zwischengeschalteten Backup-Server auch noch für zusätzliche Sicherheit sorgen, man lagert die letzten 7 Tage eben zusätzlich noch auf einem RAID auf dem Backup-Server. Ganz nebenbei erspart das viel Theater mit lahmen Tapes.

In den Sets nutzt man typischerweise 5 bis 7 Bänder, eines (das Sonntags-Band) für ein Vollbackup, die restlichen für (werk-)tägliche inkrementelle Backups.

Natürlich kann man stattdessen auch eine oder mehrere Festplatten benutzen, USB 3.0, E-SATA und Firewire 800 bieten sich da an. Und natürlich die Kombination mit rsync + hardlinks.

Mit mehreren Festplatten im Rotationsverfahren bekommt man auch keine Anlaufprobleme bei den Festplatten, weil sie weder ewig lagern noch dauernd laufen.

Echte Langzeit-Archivierung ist das alles aber nicht, denn die Daten bleiben ja veränderbar.

Alexander

--
Today I will gladly share my knowledge and experience, for there are no sweeter words than "I told you so".