Bernhard: Datenarchivierung

Hallohallo!

Ich überlege mir gerade, wie ich am günstigsten eine (für mich) große Menge an Daten archiviere.

Rahmenbedingungen:
a) Datenmenge ist auf absehbare Zeit <= 3TB (da ist schon ein ordentliches Polster dabei)
b) Daten sind "unveränderlich". Soll heißen: es kommt immer wieder mal eine Datei dazu, selten werden welche gelöscht, die Dateien selber werden aber praktisch nie geändert. Was bisweilen vorkommen kann, ist eine Änderung der Verzeichnishierarchie.
c) Wegen b) und weil ich sowieso alles redundant halten muss, ist mir Schutz gegen versehentliches Löschen nicht so wichtig. Bei Änderungen muss ich eben vorsichtig sein.
d) Archivierungsmedium werden wohl in irgendeiner Form Festplatten sein (seien es externe oder ein Fileserver o.ä.); sämtliche Alternativen scheinen mir mehr Nachteile zu haben.
e) Wegen d) macht mir auch Malware keine größeren Sorgen; mit einer sinnvollen Rechtevergabe oder einem Hardware-Schreibschutz etc. sollte man den meisten Gefahren vorbeugen können. Da wird mir schon was einfallen.

Zwei Fragen stellen sich mir trotzdem noch:
1. Wie schaffe ich Redundanz? Das ganze z.B. einfach auf 2 verschiedenen Platten spiegeln (z.B. ein Fileserver und eine externe Backup-Platte)? Kommt mir jedenfalls am sinnvollsten vor.
2. Was mir am meisten Kopfzerbrechen bereitet: Ich muss regelmäßig prüfen, ob das Zeug auf den Platten nicht irgendwie, z.B. durch einen Hardwaredefekt, korrumpiert worden ist. Das wird vermutlich nur durch einen Abgleich zwischen den Platten gehen. (Wenn die Daten vor dem Archivieren schon hinüber oder sämtliche redundanten Platten defekt sind, dann habe ich wohl Pech.) Wie führe ich jetzt diesen Abgleich am besten durch?

Bin für sämtlich Tipps/alternative Strategien/etc. dankbar.

Schöne Grüße
Bernhard

  1. Hallo,

    Ich überlege mir gerade, wie ich am günstigsten eine (für mich) große Menge an Daten archiviere.
    [...]
    Zwei Fragen stellen sich mir trotzdem noch:

    1. Wie schaffe ich Redundanz? Das ganze z.B. einfach auf 2 verschiedenen Platten spiegeln (z.B. ein Fileserver und eine externe Backup-Platte)? Kommt mir jedenfalls am sinnvollsten vor.

    mir auch. Vor allem würde ich empfehlen, die beiden Archive dann auch räumlich getrennt zu lagern. Wenn die externe Platte gleich neben dem großen Fileserver steht, sind bei einem Brand gleich beide hinüber.

    1. Was mir am meisten Kopfzerbrechen bereitet: Ich muss regelmäßig prüfen, ob das Zeug auf den Platten nicht irgendwie, z.B. durch einen Hardwaredefekt, korrumpiert worden ist. Das wird vermutlich nur durch einen Abgleich zwischen den Platten gehen.

    Nicht unbedingt. Du könntest auch im aktiven Datenbestand eine Tabelle mit Prüfsummen aller archivierten Dateien führen. Dann brauchst du nur von Zeit zu Zeit die Daten von einem der Medien zu lesen und die Prüfsumme zu kontrollieren.

    (Wenn die Daten vor dem Archivieren schon hinüber oder sämtliche redundanten Platten defekt sind, dann habe ich wohl Pech.)

    Klar. Die Wahrscheinlichkeit, dass zwei unabhängige Speichermedien im gleichen Zeitraum den Geist aufgeben, ist aber gering. Und wenn die Daten vor dem Backup schon unbrauchbar sind, wird immerhin genau dieser Zustand konserviert. Technisch völlig korrekt. ;-)

    Bin für sämtlich Tipps/alternative Strategien/etc. dankbar.

    Schon mal über eine verteilte Speicherung nachgedacht? Also jeweils nur Teile des Gesamtbestands auf kleineren Medien zu archivieren, eventuell auch online? Das würde eine Panne dann automatisch auf einen kleinen Teil der Daten beschränken. Allerdings ist der Verwaltungsaufwand höher. Aber je nachdem, wie wichtig die gespeicherten Daten sind ...

    So long,
     Martin

    --
    Eine Neandertaler-Sippe sitzt in ihrer kalten Höhle. Seufzt der Stammesälteste: "Hoffentlich erfindet bald jemand das Feuer!"
    Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
    1. Hi!

      1. Was mir am meisten Kopfzerbrechen bereitet: Ich muss regelmäßig prüfen, ob das Zeug auf den Platten nicht irgendwie, z.B. durch einen Hardwaredefekt, korrumpiert worden ist. Das wird vermutlich nur durch einen Abgleich zwischen den Platten gehen.

      Nicht unbedingt. Du könntest auch im aktiven Datenbestand eine Tabelle mit Prüfsummen aller archivierten Dateien führen. Dann brauchst du nur von Zeit zu Zeit die Daten von einem der Medien zu lesen und die Prüfsumme zu kontrollieren.

      Nette Idee. Kannst du das ein bißchen ausführen? Wie machst du bzw. würdest du das konkret machen? Welche Software nimmt man dazu? Können Windows oder Linux das mit Bordmitteln?

      Schon mal über eine verteilte Speicherung nachgedacht? Also jeweils nur Teile des Gesamtbestands auf kleineren Medien zu archivieren, eventuell auch online? Das würde eine Panne dann automatisch auf einen kleinen Teil der Daten beschränken. Allerdings ist der Verwaltungsaufwand höher. Aber je nachdem, wie wichtig die gespeicherten Daten sind ...

      Der Aufwand dafür wäre mir zu groß. Da nehme ich lieber noch eine weitere redundante externe Platte dazu, um die Ausfallswahrscheinlichkeit zu drücken. Die Daten sind mir zwar wichtig, aber nicht lebensnotwendig.

      Grüße
      Bernhard

      1. Hallo,

        Du könntest auch im aktiven Datenbestand eine Tabelle mit Prüfsummen aller archivierten Dateien führen. Dann brauchst du nur von Zeit zu Zeit die Daten von einem der Medien zu lesen und die Prüfsumme zu kontrollieren.
        Nette Idee. Kannst du das ein bißchen ausführen?

        kann ich, aber das war eigentlich erstmal nur eine diffuse Idee, ein Brainstorming. Aber lass mich kurz drüber nachdenken ... okay.

        Wie machst du bzw. würdest du das konkret machen? Welche Software nimmt man dazu? Können Windows oder Linux das mit Bordmitteln?

        Naja, was heißt Bordmittel - bevor ich lange im Bordwerkzeug suche, würde ich mir wahrscheinlich ein kleines Progrämmchen schreiben, das einen Dateinamen (oder mehrere) als Kommandozeilen-Argument bekommt und dann
         a) die Prüfsumme berechnet - über den zu verwendenden Algorithmus kann man noch fabulieren
         b) die Prüfsumme mit dem Dateinamen und ggf. weiteren Metadaten wie Größe und Timestamp in eine
            Tabelle einträgt (Sparversion: CSV-Datei, Luxusversion: mySQL)
         c) die Datei ins Archiv kopiert
        Eventuell kann dasselbe Programm über einen Switch auch noch dafür herhalten, eine Datei aus dem Archiv zu lesen, erneut die Prüfsumme zu bilden, die gespeicherte aus der Tabelle rauszusuchen und beide zu vergleichen.

        Ciao,
         Martin

        --
        Krankenschwester zum fassungslosen Vater von Drillingen: Nein, Sie sollen sich keins aussuchen! Alle drei sind Ihre!
        Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(
        1. Hi!

          Du könntest auch im aktiven Datenbestand eine Tabelle mit Prüfsummen aller archivierten Dateien führen. Dann brauchst du nur von Zeit zu Zeit die Daten von einem der Medien zu lesen und die Prüfsumme zu kontrollieren.
          Nette Idee. Kannst du das ein bißchen ausführen?

          kann ich, aber das war eigentlich erstmal nur eine diffuse Idee, ein Brainstorming. Aber lass mich kurz drüber nachdenken ... okay.

          Wie machst du bzw. würdest du das konkret machen? Welche Software nimmt man dazu? Können Windows oder Linux das mit Bordmitteln?

          Naja, was heißt Bordmittel - bevor ich lange im Bordwerkzeug suche, würde ich mir wahrscheinlich ein kleines Progrämmchen schreiben, das einen Dateinamen (oder mehrere) als Kommandozeilen-Argument bekommt und dann
          a) die Prüfsumme berechnet - über den zu verwendenden Algorithmus kann man noch fabulieren
          b) die Prüfsumme mit dem Dateinamen und ggf. weiteren Metadaten wie Größe und Timestamp in eine
              Tabelle einträgt (Sparversion: CSV-Datei, Luxusversion: mySQL)
          c) die Datei ins Archiv kopiert
          Eventuell kann dasselbe Programm über einen Switch auch noch dafür herhalten, eine Datei aus dem Archiv zu lesen, erneut die Prüfsumme zu bilden, die gespeicherte aus der Tabelle rauszusuchen und beide zu vergleichen.

          Also was selbstgestricktes, hmm... Ja, die Prüfsummenalgorithmen sind natürlich schon bekannt und analysiert worden. Wir wäre trotzdem eine vorgefertigte Lösung für den Abgleich lieber. Auch beim Shell-Scripting kann man ordentlichen Blödsinn programmieren...

          Kann mir nicht vorstellen, dass es dafür noch nix gibt, oder!?

          Grüße
          Bernhard

          1. Hallo,

            Also was selbstgestricktes

            ja, genau.

            Kann mir nicht vorstellen, dass es dafür noch nix gibt, oder!?

            Gut möglich, dass es schon etwas beinahe Passendes gibt. Aber ehe ich zwei Tage mit der Recherche verbrate, setz ich mich lieber einen Nachmittag hin und mach's selbst. Dann weiß ich, was ich habe.

            Ciao,
             Martin

            --
            "Gestern habe ich die Rede des Parteivorsitzenden gehört. Zwei Stunden lang!" - "Worüber?" - "Hat er nicht gesagt."
            Selfcode: fo:) ch:{ rl:| br:< n4:( ie:| mo:| va:) de:] zu:) fl:{ ss:) ls:µ js:(