Tennchen: Welche Rechenleistung benötigt Raid 5

Hi Leute =)

ich beschäftige mich gerade mit RAIDs und insbesondere RAID 5.
Nun ist es so, dass RAID 5 Controller, die das Schreiben der Paritätsinformationen bereits hardwareseitig übernehmen, ziemlich viel Geld kosten. Andere Controller, die ebenfalls RAID 5 anbieten und etwa um den Faktor 5 weniger kosten, lassen die Paritätsinformationen von der CPU berechnen. Selbiges gilt wohl auch für Mainboards mit entsprechender Funktion.

Mich interessiert nun, wieviel Rechenkraft benötigt wird, wenn ich z.B. eine 5GB große Datei auf den PC kopiere, wodurch die CPU natürlich die Paritätdaten berechnen muss. Außerdem würde ich gerne wissen, inwieweit es bei einem RAID 5 _nicht_ möglich ist, den eingebauten Festplatten-Cache zu benutzen. Angeblich soll es ja durch die Benutzung zu Inkonsistenz führen.
Was für Nachteile hat das für mich?

Falls sich jemand ein bisschen damit auskennt oder mir zumindest einen Link geben könnte, wäre das super.

Gruß,
Tennchen

  1. Moin!

    Mich interessiert nun, wieviel Rechenkraft benötigt wird, wenn ich z.B. eine 5GB große Datei auf den PC kopiere, wodurch die CPU natürlich die Paritätdaten berechnen muss. Außerdem würde ich gerne wissen, inwieweit es bei einem RAID 5 _nicht_ möglich ist, den eingebauten Festplatten-Cache zu benutzen. Angeblich soll es ja durch die Benutzung zu Inkonsistenz führen.
    Was für Nachteile hat das für mich?

    Die von mir zu RAID5 recherchierten Informationen ergeben eigentlich nur EINE sinnvoll Handlungsweise: Abstand halten.

    Den ersten Nachteil von RAID5 hast du selbst erkannt: Die Prüfsummenberechnung muß irgendwo geleistet werden, die teuren Hardware-Controller sind zu teuer, die billigen Controller belasten die CPU - aber was bei beiden Lösungen noch viel dramatischer ist: Wenn anstelle einer Festplatte der Controller hops geht, sind deine gesamten Daten im Arsch, wenn du keinen identischen Controller wiederbeschaffen kannst. Einfach nur deshalb, weil die Aufteilungslogik der Daten Controllersache ist.

    Der zweite Punkt ist die Performance des funktionierenden Arrays. Da schneidet RAID5 im Lesebetrieb nicht so schlecht ab, aber beim Schreiben wird es übel. Da bekanntlich immer von jeder Festplatte ein Sektor mit jeder anderen Festplatte zusammenhängt, um einen zusätzlichen Paritätssektor zu ergeben, müssen bei einem Schreibzugriff auf einen Sektor von allen Festplatten die Sektoren gelesen werden, um dann den eigentlichen Sektor und den neuen Paritätssektor zu berechnen.

    Der dritte Punkt ist die Performance des Arrays bei Plattenausfall. Da die Daten der fehlenden Platte nur noch durch Lesen aller verbliebenen Platten plus Errechnung über die Paritätsbits ermittelt werden können, performt ein defektes RAID5-Array ganz mies.

    Wenn es dir um vernünftige Performance in den üblichen Betriebszuständen sowie einer guten Ausfallsicherheit gegenüber dem Controller geht, verwende Software-RAID-1 des Betriebssystems.

    Wenn du exzellente Performance haben willst, verwende Software-RAID-1+0 des Betriebssystems. Von irgendeiner billigen RAID-Controller-Hardware, die alles RAID-mäßige im Treiber von der Rechner-CPU erledigen lassen, solltest du eher die Finger lassen - das verursacht langfristig nur Ärger.

    Wenn du wirklich eine gute RAID-Lösung brauchst, kaufst du dir einen echten Hardware-RAID-Controller für RAID 1+0. Der im Vergleich zu RAID 5 notwendige zusätzliche Festplattenplatz ist geradezu spottbillig im Vergleich zu den Problemen, die eine gescheiterte RAID5-Lösung extra kostet.

    Falls sich jemand ein bisschen damit auskennt oder mir zumindest einen Link geben könnte, wäre das super.

    Ich hätte das hier anzubieten: http://www.miracleas.com/BAARF/RAID5_versus_RAID10.txt

    Die genannten Argumente gegen RAID 5 sind für mich logisch nachvollziehbar. Zudem weiß ich aus eigener Erfahrung mit RAID 1: Die dabei entstehenden Festplatten sind praktisch sofort als eigenständiges Laufwerk auch ohne RAID nutzbar, wenn es wirklich drauf ankommt. Man kann also im Problemfall mit den Einzelteilen des Arrays so arbeiten, als hätte es kein RAID 1 gegeben. Das finde ich sehr beruhigend.

    - Sven Rautenberg

    --
    "Love your nation - respect the others."
    1. Der zweite Punkt ist die Performance des funktionierenden Arrays. Da schneidet RAID5 im Lesebetrieb nicht so schlecht ab, aber beim Schreiben wird es übel. Da bekanntlich immer von jeder Festplatte ein Sektor mit jeder anderen Festplatte zusammenhängt, um einen zusätzlichen Paritätssektor zu ergeben, müssen bei einem Schreibzugriff auf einen Sektor von allen Festplatten die Sektoren gelesen werden, um dann den eigentlichen Sektor und den neuen Paritätssektor zu berechnen.

      Naja was heißt "wird es übel"? Ist das z.B. für einen Heimanwender spürbar?

      Der dritte Punkt ist die Performance des Arrays bei Plattenausfall. Da die Daten der fehlenden Platte nur noch durch Lesen aller verbliebenen Platten plus Errechnung über die Paritätsbits ermittelt werden können, performt ein defektes RAID5-Array ganz mies.

      Nunja, man kann ja einfach eine neue Festplatte einbauen. Dann muss man ein bisschen warten, bis alle Daten herüberkopiert wurden, aber dann läuft ja alles wieder ganz normal.

      Wenn du wirklich eine gute RAID-Lösung brauchst, kaufst du dir einen echten Hardware-RAID-Controller für RAID 1+0. Der im Vergleich zu RAID 5 notwendige zusätzliche Festplattenplatz ist geradezu spottbillig im Vergleich zu den Problemen, die eine gescheiterte RAID5-Lösung extra kostet.

      Das stimmt aber so nicht.
      Mal angenommen ich möchte keinen Geschwindigkeitsgewinn sondern nur Ausfallsicherheit. Dann richte ich mir ein RAID 1 ein.
      Will ich nun 2TB Speicherplatz haben, muss ich mir sage und schreibe acht 500GB Festplatten kaufen.
      Die Chance, dass es zu einem Datenverlust durch Festplattenschaden kommt, beträgt dann 4 * Ausfallwahrscheinlichkeit.
      D.h. wenn die Wahrscheinlichkeit, dass zwei zusammengehörige Festplatten gleichzeitig ausfallen pro Jahr 1% beträgt, wären das im Jahr 4%.
      Bei Raid5 könnte ich mir z.B. vier Festplatten zum Speichern und zwei Festplatten zum Sichern nutzen. Nun müssen schon drei Festplatten gleichzeitig ausfallen, damit mir Daten verloren gehen. Es ist zwar egal welche Festplatten es sind, aber die Chance ist bestimmt geringer als im obigen Beispiel. Außerdem kann ich über die "Sicherheitsstufe" selbst entscheiden, indem ich einfach entsprechend viele Festplatten nehme. Daher ist es kostengünstiger.

      Die genannten Argumente gegen RAID 5 sind für mich logisch nachvollziehbar. Zudem weiß ich aus eigener Erfahrung mit RAID 1: Die dabei entstehenden Festplatten sind praktisch sofort als eigenständiges Laufwerk auch ohne RAID nutzbar, wenn es wirklich drauf ankommt. Man kann also im Problemfall mit den Einzelteilen des Arrays so arbeiten, als hätte es kein RAID 1 gegeben. Das finde ich sehr beruhigend.

      Das ist natürlich richtig.

      1. Moin!

        Der zweite Punkt ist die Performance des funktionierenden Arrays. Da schneidet RAID5 im Lesebetrieb nicht so schlecht ab, aber beim Schreiben wird es übel. Da bekanntlich immer von jeder Festplatte ein Sektor mit jeder anderen Festplatte zusammenhängt, um einen zusätzlichen Paritätssektor zu ergeben, müssen bei einem Schreibzugriff auf einen Sektor von allen Festplatten die Sektoren gelesen werden, um dann den eigentlichen Sektor und den neuen Paritätssektor zu berechnen.

        Naja was heißt "wird es übel"? Ist das z.B. für einen Heimanwender spürbar?

        Ich würde behaupten: Ja.

        Der dritte Punkt ist die Performance des Arrays bei Plattenausfall. Da die Daten der fehlenden Platte nur noch durch Lesen aller verbliebenen Platten plus Errechnung über die Paritätsbits ermittelt werden können, performt ein defektes RAID5-Array ganz mies.

        Nunja, man kann ja einfach eine neue Festplatte einbauen. Dann muss man ein bisschen warten, bis alle Daten herüberkopiert wurden, aber dann läuft ja alles wieder ganz normal.

        Solange die Daten nicht vollständig wiederhergestellt sind, ist jeder weitere Plattenausfall fatal. Bei RAID 5 dauert das aber systembedingt länger, als bei RAID 1 - wobei RAID 1 im Bedarfsfall auch mit mehr als 2 Platten pro Verbund betrieben werden könnte, wenn diese Redundanz benötigt wird. In jedem Fall aber bietet RAID 1 eine schönere Leseperformance, als RAID 5. Schließlich kann an zwei Stellen unabhängig voneinander gelesen werden.

        Wenn du wirklich eine gute RAID-Lösung brauchst, kaufst du dir einen echten Hardware-RAID-Controller für RAID 1+0. Der im Vergleich zu RAID 5 notwendige zusätzliche Festplattenplatz ist geradezu spottbillig im Vergleich zu den Problemen, die eine gescheiterte RAID5-Lösung extra kostet.

        Das stimmt aber so nicht.

        Du behauptest also, dass dich die Probleme, die bei RAID 5 auftreten können, weniger kosten, als die Extra-Platten?

        Mal angenommen ich möchte keinen Geschwindigkeitsgewinn sondern nur Ausfallsicherheit. Dann richte ich mir ein RAID 1 ein.
        Will ich nun 2TB Speicherplatz haben, muss ich mir sage und schreibe acht 500GB Festplatten kaufen.

        Ich würde ja zu 1TB-Platten greifen. Spart grob gerechnet die Hälfte an Strom - auf die beabsichtigte lange Laufzeit kann sich das durchaus rechnen, wie haben nur diese eine Welt.

        Die Chance, dass es zu einem Datenverlust durch Festplattenschaden kommt, beträgt dann 4 * Ausfallwahrscheinlichkeit.

        Ich habe das Gefühl, dass du bei Wahrscheinlichkeitsrechnung in der Schule gefehlt hast. Jedenfalls kann ich deine Rechnung nicht ganz nachvollziehen.

        D.h. wenn die Wahrscheinlichkeit, dass zwei zusammengehörige Festplatten gleichzeitig ausfallen pro Jahr 1% beträgt, wären das im Jahr 4%.
        Bei Raid5 könnte ich mir z.B. vier Festplatten zum Speichern und zwei Festplatten zum Sichern nutzen. Nun müssen schon drei Festplatten gleichzeitig ausfallen, damit mir Daten verloren gehen. Es ist zwar egal welche Festplatten es sind, aber die Chance ist bestimmt geringer als im obigen Beispiel. Außerdem kann ich über die "Sicherheitsstufe" selbst entscheiden, indem ich einfach entsprechend viele Festplatten nehme. Daher ist es kostengünstiger.

        Da du aber das Kostenargument anbringst, wirst du niemals so ein überdimensioniertes RAID5-Array bauen. Stattdessen wirst du, wenn du tatsächlich 8 Platten zur Verfügung hättest, ein RAID5-Array mit 7 mal Daten und ein mal Parität benutzen, für minimalen Speicherplatzverlust.

        Und in DIESER Konstruktion verlierst du tatsächlich mit hoher Wahrscheinlichkeit Daten - sogar DEUTLICH wahrscheinlicher, als im obigen RAID1-Konstrukt, weil es jetzt ausreicht, wenn einfach IRGENDWELCHE zwei Laufwerke annährend gleichzeitig ausfallen.

        Bei der RAID1-Konstruktion könnten dir im Zweifel auch vier Laufwerke ausfallen, ohne dass du Datenverlust erleidest. Und wenn tatsächlich der Teufel eingreift und zwei Platten eines Paares dahinrafft, verlierst du potentiell nur ein Viertel deiner Daten - bei RAID5 hingegen gleich alles. Die zwei RAID1-Platten hingegen könnten durch einen glücklichen Zufall an unterschiedlichen Stellen Defekte zeigen, so dass eine Wiederherstellung der Datensumme möglich wäre.

        - Sven Rautenberg

        --
        "Love your nation - respect the others."
        1. Mal angenommen ich möchte keinen Geschwindigkeitsgewinn sondern nur Ausfallsicherheit. Dann richte ich mir ein RAID 1 ein.
          Will ich nun 2TB Speicherplatz haben, muss ich mir sage und schreibe acht 500GB Festplatten kaufen.

          Ich würde ja zu 1TB-Platten greifen. Spart grob gerechnet die Hälfte an Strom - auf die beabsichtigte lange Laufzeit kann sich das durchaus rechnen, wie haben nur diese eine Welt.

          Die Chance, dass es zu einem Datenverlust durch Festplattenschaden kommt, beträgt dann 4 * Ausfallwahrscheinlichkeit.

          Ich habe das Gefühl, dass du bei Wahrscheinlichkeitsrechnung in der Schule gefehlt hast. Jedenfalls kann ich deine Rechnung nicht ganz nachvollziehen.

          Nunja. Daten gehen nur dann verloren, wenn zwei zusammengehörige Festplatten ausfallen. Da es 4 mal zwei zusammengehöre Festplatten gibt, beträgt die Chance, dass Daten verloren gehen 4 mal [Wahrscheinlichkeit, dass zwei zusammengehörige Laufwerke ausfallen].
          Wenn man nun mithilfe von Statstiken bestimmt, dass die Chance dafür, dass eine Festplatte an einem Tag kaputt geht (sagen wir einfach mal) 0,001 beträgt, dann wäre die Wahrscheinlichkeit dafür, dass zwei zusammengehörige Platten am selben Tag ausfallen also 0,001 * 0,001 = 0,000001.
          Da das ganze aber viermal passieren kann (mit jedem Paar) beträgt die Chance 4* 0,000001 = 0,000004.
          Je nachdem, wie schnell man den Ausfall bemerkt und wie die realistischen Wahrscheinlichkeiten liegen, kann man doch so die Wahrscheinlichkeit eines Datenverlusts berechnen.

          Da du aber das Kostenargument anbringst, wirst du niemals so ein überdimensioniertes RAID5-Array bauen. Stattdessen wirst du, wenn du tatsächlich 8 Platten zur Verfügung hättest, ein RAID5-Array mit 7 mal Daten und ein mal Parität benutzen, für minimalen Speicherplatzverlust.

          Nehmen wir mal an ich nehme 6 Platten, von denen ich zwei für Paritätinformationen nutze. Dann muss ich 2 Platten weniger kaufen und habe genausoviel Speicherplatz wie vorher.
          Die Ausfallwahrscheinlichkeit berechnet sich nun folgendermaßen:

          Wenn drei Festplatten (egal welche) gleichzeitig kaputt gehen, entsteht ein Datenverlust. Wenn man von der obigen Wahrscheinlichkeit ausgeht, dann gibt es insgesamt 20 Konstellationen (bei 6 Platten), bei denen 3 Platten ausfallen.
          Die Warscheinlichkeit beträgt also 20 * 0,001 * 0,001 * 0,001 = 0,00000002.
          Die Chance für einen Datenverlust ist also stark gesunken und trotzdem hab ich Geld gespart, weil ich zwei Festplatten weniger kaufen muss.

          Was sagst du dazu? Hab ich einen Fehler gemacht?

          1. Was sagst du dazu? Hab ich einen Fehler gemacht?

            ich habs jetzt nicht nachgerechnet - aber: raid 5 ist potentiell sicherer als raid 0+1 oder 10 und in dieser dimension kostengünstiger

            wenn du jetzt 4 platten gegenüber 3 + controller rechnest, ist es wahrscheinlich nicht so tragisch - wenn du jetzt aber 8 zu 6+controller rechnest wird der unterschied schon deutlicher

            es kommt natürlich auch auf die nettokapazität an, die man haben möchte

          2. Moin!

            Wenn man nun mithilfe von Statstiken bestimmt, dass die Chance dafür, dass eine Festplatte an einem Tag kaputt geht (sagen wir einfach mal) 0,001 beträgt, dann wäre die Wahrscheinlichkeit dafür, dass zwei zusammengehörige Platten am selben Tag ausfallen also 0,001 * 0,001 = 0,000001.

            Diese Rechnung ist falsch.

            Es kommt ja nur dann zu Datenverlust, wenn nach dem Ereignis des ersten Festplattenausfalls exakt die korrespondierende Festplatte auch noch ausfällt - nicht irgendeine.

            Das, was du ausrechnest, ist die Wahrscheinlichkeit, dass zwei Platten nacheinander ausfallen.

            Nachdem die erste Platte ausgefallen ist, stehen aber noch sieben verbleibende Platten zur Verfügung, von denen aber nur der Ausfall einer einzigen direkt zu Datenverlust führt.

            Die Wahrscheinlichkeit für den Ausfall der "falschen" Platte beträgt daher nur ein Siebtel.

            Als Chance: (8 * 0,001) * (0,001 / 7) = 0,00001428

            Im Gegensatz dazu ist die Chance, dass in einem RAID5 zwei Platten hintereinander ausfallen, ungleich größer:

            (8 * 0,001) * (7 * 0,001) = 0,00056

            Das ist vierzigmal höheres Risiko.

            Nehmen wir mal an ich nehme 6 Platten, von denen ich zwei für Paritätinformationen nutze. Dann muss ich 2 Platten weniger kaufen und habe genausoviel Speicherplatz wie vorher.

            Dein Wunsch klingt natürlich nett, aber RAID 5 bietet dir technisch nicht die Möglichkeit, einfach zwei Platten für Paritätsinformationen zu verwenden. Weil die Paritätssektoren über alle beteiligten Platten verteilt werden, und RAID5 nur EINEN Paritätssektor errechnet.

            Der Paritätssektor ist auch überhaupt nicht besonders, er ist nicht wichtiger - wenn eine Platte ausfällt, benötigt man zwingend die auf allen anderen Platten gespeicherten (Daten- oder Paritäts-)Sektoren, um die fehlende Platte wiederherzustellen. RAID 5 setzt aber mit dem XOR-Verfahren nur einen sehr simplen Mechanismus für die Parität ein, den man technisch gar nicht verdoppeln kann für zwei "Sicherheitsplatten".

            Du kannst natürlich alle beteiligten RAID5-Platten ihrerseite nochmal als RAID 1 spiegeln, dann dürften sogar zwei zusammengehöroge Platten ausfallen - aber das wäre erst recht Verschwendung.

            - Sven Rautenberg

            --
            "Love your nation - respect the others."
            1. RAID 5 setzt aber mit dem XOR-Verfahren nur einen sehr simplen Mechanismus für die Parität ein, den man technisch gar nicht verdoppeln kann für zwei "Sicherheitsplatten".

              raid 6 wäre eine möglichkeit (mit 2 platten für paritätsinformationen), allerdings ist die performance ungleich schlechter, man bekommt kaum passende controller und die ausfallsicherheit ist auch nicht wesentlich besser als bei einem raid 5 mit einer hotspare platte, da es quasi vernachlässigbar ist, dass eine weitere platte in dem äusserst kleinen zeitfenster (ein paar stunden) des rebuild-prozesses ausfällt

            2. den man technisch gar nicht verdoppeln kann für zwei "Sicherheitsplatten".

              Dafür gibt es dann ja Raid6. Dabei können gleichzeitig 2 Platten ausfallen ohne Datenverlust.

            3. Moin!

              Wenn man nun mithilfe von Statstiken bestimmt, dass die Chance dafür, dass eine Festplatte an einem Tag kaputt geht (sagen wir einfach mal) 0,001 beträgt, dann wäre die Wahrscheinlichkeit dafür, dass zwei zusammengehörige Platten am selben Tag ausfallen also 0,001 * 0,001 = 0,000001.

              Diese Rechnung ist falsch.

              Es kommt ja nur dann zu Datenverlust, wenn nach dem Ereignis des ersten Festplattenausfalls exakt die korrespondierende Festplatte auch noch ausfällt - nicht irgendeine.

              Das, was du ausrechnest, ist die Wahrscheinlichkeit, dass zwei Platten nacheinander ausfallen.

              Nachdem die erste Platte ausgefallen ist, stehen aber noch sieben verbleibende Platten zur Verfügung, von denen aber nur der Ausfall einer einzigen direkt zu Datenverlust führt.

              Die Wahrscheinlichkeit für den Ausfall der "falschen" Platte beträgt daher nur ein Siebtel.

              Als Chance: (8 * 0,001) * (0,001 / 7) = 0,00001428

              Du irrst dich. Gehen wir mal von 10% Ausfallwahrscheinlichkeit am Tag aus. Dann sähe das nach deiner Rechnung so aus:
              (8 * 0,1) * (0,1 / 7) = 0,1428

              Bei 10'000 Tagen würde das bedeuten, dass ungefähr 143 mal ein Datenverlust stattfinden würde.
              Um das nun zu überprüfen, habe ich ein kleines Programm (extra für dich in Javascript =)) geschrieben, welches das mal nachrechnet.
              Wenn ich eingebe, dass es 8 Festplatten sein sollen (4mal Daten, 4mal Parität), es 10'000 Tage dauern soll und die Ausfallwahrscheinlichkeit 10% beträgt, erhalte ich Werte von um die 400. Und das entspricht genau dem, was ich gesagt habe. Hier das Programm:

                
              <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0//EN"  
                     "http://www.w3.org/TR/REC-html40/strict.dtd">  
              <html>  
              <head>  
              <script type="text/javascript">  
              function berechnen()  
              {  
               //Inputdaten sammeln  
               var festplattenanzahl = document.getElementById("festplattenanzahl").value;  
               var ausfallwahrscheinlichkeit = document.getElementById("ausfallwahrscheinlichkeit").value / 100;  
               var zeitabschnitte = document.getElementById("zeitabschnitte").value;  
                
               //Am Anfang gibt es noch keinen Datenverlust  
               var datenverluste = 0;  
                
               //Zuerst zwei Arrays von Festplatten erstellen... die Hälfte sind Datenfestplatte, die andere Hälfte Paritätsfestplatten  
               //Datenfestplatten[n] und Paritätsfestplatten[n] gehören jeweils zusammen  
               var Datenfestplatten = new Array(festplattenanzahl / 2);  
               var Paritätsfestplatten = new Array(festplattenanzahl / 2);  
                
               while (zeitabschnitte > 0) //Für jeden Zeitabschnitt wird geprüft, ob es einen Ausfall gab  
               {  
                for (var i = 0; i < festplattenanzahl / 2; i++) //Für jede Festplatte...  
                {  
                 //...einen Zufallswert zuweisen (von 0 bis 1)  
                 Datenfestplatten[i] = Math.random();  
                 Paritätsfestplatten[i] = Math.random();  
                }  
                //Überprüfen, ob es einen Ausfall gab. Dies wäre dann der Fall, wenn Datenfestplatten[n] und Paritätsfestplatten[n] gleichzeitig ausgefallen sind.  
                //Ausgefallen sind sie dann, wenn der Zufallswert kleiner als die Ausfallwahrscheinlichkeit ist.  
                //Wenn die Ausfallwahrscheinlichkeit 5% beträgt (0,05) dann würden alle Zufallswerte von 0,00 bis 0,05 einen Ausfall bedeuten  
                for (var i = 0; i < festplattenanzahl / 2; i++) //Für jede Festplatte...  
                {  
                 //...auf einen gleichzeitigen Ausfall überprüfen  
                 if (Datenfestplatten[i] <= ausfallwahrscheinlichkeit && Paritätsfestplatten[i] <= ausfallwahrscheinlichkeit)  
                 {  
                  datenverluste++; //Es hat einen Datenverlust gegeben!  
                 }  
                }  
                zeitabschnitte--;  
               }  
                
               //Datenverluste ausgeben...  
               document.getElementById("ergebnis").innerHTML = "Es ist zu "+ datenverluste +" Datenverlusten gekommen.";  
              }  
              </script>  
              </head>  
              <body>  
              <div id="ergebnis" style="height: 30px; background: lightgray;"></div><br>  
              Anzahl an Festplatten (inkl. den Gespiegelten): <input type="text" id="festplattenanzahl"><br>  
              Ausfallwahrscheinlichkeit innerhalb eines Zeitabschnitts: <input type="text" id="ausfallwahrscheinlichkeit"> (in Prozent)<br>  
              Anzahl an Zeitabschnitten: <input type="text" id="zeitabschnitte"><br>  
              <button onclick="berechnen();">Datenverlustanzahl ermitteln</button>  
              </body>  
              </html>  
              
              
              1. Hallo,

                auch auf die Gefahr hin, jetzt in ein Fettnäpfchen zu treten, möchte ich meinen Senf dazugeben:

                1. Die Berechnung für das RAID0+1 ist meines Erachtens bei Euch beiden falsch. Bei Tennchens Ansatz (4*0,001*0,001) wird nicht berücksichtigt, dass ja auch die "Parity-Platte" zuerst ausfallen kann und danach die "Daten-Platte". Deshalb scheint mir für die Ausfallwahrscheinlichkeit von 2 zusammenhängenden Platten (bei 4 Paaren, also insg. 8 Platten) folgendes richtig zu sein (wobei 0,001 die willkürlich gewählte Ausfallwahrscheinlichkeit einer Platte pro Tag sei):

                RAID0+1: (8 * 0,001) * (1 * 0,001) = 0,000'008

                Das passt auch gut zu Svens Ansatz, bei dem ich nicht verstehe, wieso er noch durch 7 teilt (wenn man zu Beginn mit 8 multipliziert, weil man sagt, irgendeine der 8 Platten kann ausfallen, dann braucht man für eine bestimmte Platte [den "Partner"] nur die einfache Wahrscheinlichkeit, aber nicht ein Siebtel).

                2. Desweiteren beginnt Ihr, Äpfel mit Birnen zu vergleichen:
                Ihr vermischt verschiedene Speichergrößen (beim Vergleich 8 Platten "richtiges" RAID5 mit 8 Platten RAID0+1), außerdem benutzt Ihr den Namen RAID5 für unterschiedliche Dinge: Das, was Tennchen RAID5 nennt, soll wohl in Wirklichkeit ein RAID6 sein.

                Die Wahrscheinlichkeit für einen Datenverlust im RAID6 mit 6 Platten (4 Daten und 2 Redundanz) berechnet sich nach Svens Ansatz so (3 beliebige Platten fallen aus):

                RAID6: (6 * 0,001) * (5 * 0,001) * (4 * 0,001) = 0,000'000'12

                Entsprechend gilt für ein "richtiges" RAID5 mit 5 Platten (4 Daten und 1 Redundanz), bei dem 2 beliebige Platten ausfallen müssen, damit es zum Datenverlust kommt:

                RAID5: (5 * 0,001) * (4 * 0,001) = 0,000'02

                (Bemerkung zu Tennchens Ansatz: ich glaube, dass man schon berücksichtigen muss, ob z. B. zuerst Platte A und anschließend Platte B oder zuerst Platte B und dann Platte A ausfällt. Deshalb darf man nicht noch durch die Permutationen teilen.)

                Zusammenfassend sehen wir folgende Situation der Datenverlustwahrscheinlichkeiten für eine Datenmenge, die ohne jegliche Redundanz auf 4 Platten passen würde:
                1. (am sichersten):                   RAID6   mit insgesamt 6 Platten
                2. (Faktor 67 unsicherer als RAID6):  RAID0+1 mit insgesamt 8 Platten
                3. (Faktor 167 unsicherer als RAID6): RAID5   mit insgesamt 5 Platten

                Jegliche Performance-Betrachtungen bleiben hierbei unberücksichtigt.

                Ich hoffe keine weiteren Fehler hinzugefügt und zur Klärung beigetragen zu haben...

                Grüße, Alex.

                  1. (am sichersten):                   RAID6   mit insgesamt 6 Platten
                  2. (Faktor 67 unsicherer als RAID6):  RAID0+1 mit insgesamt 8 Platten
                  3. (Faktor 167 unsicherer als RAID6): RAID5   mit insgesamt 5 Platten

                  bin mir jetzt nicht ganz sicher, aber deine raid 0+1 überlegung bezieht sich auf ein hardwaregestütztes system bei dem jeweils 50% nutzdaten und 50% kopie der nächsten platte im array liegt - hier scheint die rechnung zu stimmen

                  ein klassisches raid 0+1 basiert aber auf zwei raid-0-arrays welche gespiegelt werden - in dieser konfiguration dürfen beliebig viele platten in einem leg ausfallen, jedoch maximal in einem leg

                  mit einem raid 10 (also zwei gespiegelte arrays die in einem stripeset zusammengefügt werden) verschiebt man das ganze nur - jetzt darf dürfen platten in beliebig vielen legs ausfallen, aber nie mehrere platten in einem - bei 4 platten ist das beispielsweise egal

                  im übrigen solltest du bei einem raid 5 von einer typischeren konfiguration ausgehen, da raid 5 mit 5 platten doch aufgrund der anzahl der platten potentiell recht unsicher ist

                  eine rechnerische überlegung wäre mit raid 6 (4 platten), raid 0+1 oder 10 (4 platten) und raid 5 (3 + 1 hot spare) sicher geschickter, da man hier die höhere ausfallwahrscheinlichkeit aufgrund von mehr platten vernachlässigen kann

                  im übrigen: ihr scheint hier alle dem spielerfehlschluss aufzusitzen - es wird hier ständig die wahrscheinlichkeit berechnet, dass eine platte ausfällt, wenn bereits eine ausgefallen ist oder mit welcher wahscheinlichkeit ein datenverlust entsteht, wenn eine bestimmte anzahl an platten ausfällt - das ist aber nur bedingt sinnvoll, da die mttf von festplatten nicht sequentiell sondern parallel abläuft

                  in der tat bedeuten aber mehr platten eine größere ausfallwahrscheinlichkeit, da mehrer platten prinzipiell defekt sein können - es ist also folgerichtig sinnvoll, auszurechnen wieviele platten im array maximal defekt sein dürfen und wie hoch die wahrscheinlichkeit ist, dass diese zahl erreicht wird

                  annahme 4 platten bei raid 6 und 10, 3 bei raid 5 (das ergibt in allen fällen die selbe netto-kapazität)

                  raid 6: (n-2) 50% der platten dürfen ausfallen (egal welche)
                  raid 5: (n-1) 33% der platten dürfen ausfallen (egal welche)
                  raid 10: (n-1 oder n-2 verkreuzt), best case: 50% dürfen fallen ausfallen, worst case: 25% fallen aus - bei hardwaregestützten raid-0+1-systemen darf im idealfall eine von drei platten ausfallen (33%) - die datenverteilungssytematik entspricht dabei aber einem raid 5 mit 3 platten - von daher kein vor oder nachteil in der ausfallwahrscheinlichkeit

                  in allen fällen schneidet raid 6 am besten ab, wenn man den controller und die kosten ausser acht lässt, schneidet raid 10/0+1 besser ab, als raid 5 - wenn man controller und kosten der platten einrechnet, ändert sich daran auch nicht viel - erst beim parallel betrieb von 2 unabhängigen raid arrays (2x raid 5 und 2x raid 10) wird die raid-5-lösung kostengünstiger und potentiell sicherer

                  1. Hallo suit,

                    bin mir jetzt nicht ganz sicher, aber deine raid 0+1 überlegung bezieht sich auf ein hardwaregestütztes system bei dem jeweils 50% nutzdaten und 50% kopie der nächsten platte im array liegt - hier scheint die rechnung zu stimmen

                    Ja stimmt, da habe ich über ein RAID10 geschrieben (wie auch meine Vorschreiber), es aber fälschlicherweise RAID0+1 genannt. Danke für die Aufklärung.

                    im übrigen solltest du bei einem raid 5 von einer typischeren konfiguration ausgehen, da raid 5 mit 5 platten doch aufgrund der anzahl der platten potentiell recht unsicher ist

                    Ich wollte ja eigentlich nur die angefangenen Wahrscheinlichkeitsrechnungen mal zurechtrücken und zusammenfassen, weil ich die Beiträge interessant, aber eben doch mit kleinen Fehlern behaftet fand. Für die Diskussion echter Anwendungen fehlt mir das praktische Wissen...

                    im übrigen: ihr scheint hier alle dem spielerfehlschluss aufzusitzen - es wird hier ständig die wahrscheinlichkeit berechnet, dass eine platte ausfällt, wenn bereits eine ausgefallen ist oder mit welcher wahscheinlichkeit ein datenverlust entsteht, wenn eine bestimmte anzahl an platten ausfällt - das ist aber nur bedingt sinnvoll, da die mttf von festplatten nicht sequentiell sondern parallel abläuft

                    Das ist ein sehr guter Punkt!

                    Danke für Deine Erklärungen.

                    Grüße, Alex.

                  2. im übrigen: ihr scheint hier alle dem spielerfehlschluss aufzusitzen - es wird hier ständig die wahrscheinlichkeit berechnet, dass eine platte ausfällt, wenn bereits eine ausgefallen ist oder mit welcher wahscheinlichkeit ein datenverlust entsteht, wenn eine bestimmte anzahl an platten ausfällt - das ist aber nur bedingt sinnvoll, da die mttf von festplatten nicht sequentiell sondern parallel abläuft

                    Wie groß ist denn dann die Wahrscheinlichkeit, dass es an einem Tag zu einem Datenverlust kommt, wenn man 4 Platten und jeweils 4 Paritätsplatten hat und die Chance, dass eine Platte ausfällt (das wird erst einen Tag später gemerkt), genau 10% beträgt?
                    Ich bin immernoch der Meinung, dass die Chance pro Tag gut 4% beträgt.

                    1. Wie groß ist denn dann die Wahrscheinlichkeit, dass es an einem Tag zu einem Datenverlust kommt, wenn man 4 Platten und jeweils 4 Paritätsplatten hat und die Chance, dass eine Platte ausfällt (das wird erst einen Tag später gemerkt), genau 10% beträgt?

                      wie schon erwähnt, es geht nicht um die wahrscheinlichkeit eines datenverlustes, sondern um den ausfall des arrays, die dadurch entsprechenden performanceeinbrücke und die unerreichbarkeit - raid - egal welches level - ersetzt kein backup

                      da auch nur die geringste chance besteht, dass bei einem raid ein datenverlust entsteht, ist es unumgänglich eine aktives oder passives backup zu haben

                      aber zurück zu deiner rechnung oder schätzung: diese ist gänzlich fehlerhaft

                      bei 4 platten mit je 4 paritätsplatten (was auch immer das sein soll) haben wir also 20 festplatten

                      wenn wir nun annehmen, wir rechnen die ausfallwahrscheinlichkeit auf ein jahr und jede platte defintiv 1x im jahr ausfällt, kommt uns das geburtstagsparadoxon zu hilfe:

                      die wahrscheinlichkeit für den ausfall einer beliebigen platte an einem bestimmten tag liegt bei etwa 1/365 (ca 0,27%) - die wahrscheinlichkeit für den ausfall 2 beliebiger platten an einem beliebigen tag liegt bei sage und schreibe etwa 41%

                      dieses phänomen ist einerseits in der kryptographie bzw hash-funktionen (birthday-attack) wichtig, anderseits aber auch in der berechnung von raid arrays

                      natürlich ist das obrige nur ein beispiel - es ist keinesfalls gesagt, dass eine platte defintiv 1x im jahr ausfallen wird - aber das ganze verschiebt nur den risikobereich etwas nach unten

                      fakt ist, dass mehr platten NICHT wie landläufig erwartet zu einer höheren datensicherheit führen sondern umgekehrt - je mehr platten desto katastrophaler ist die anahme - zwar ist ist ein raid 6 mit 4 platten immer noch sicherer als ein raid 5 mit 3 platten, aber die ausfallwahrscheinlichkeit der platten ist höher (auch wenn sich das auf die gesamtverfügbarkeit aufgrund der anderen technologie nicht auswirkt)

                      wie schon erwähnt: der spielerfehlschluss in bezug auf das geburtstagsparadoxon ist das entscheidende: man kann nicht einfach die ausfallwahrscheinlichkeit nehmen und dann diese ausfallwahrscheinlichkeit durch die ausfallwahrscheinlichkeit einer weiteren platte teilen

                      übrigens: das oben genannte beispiel mit 2 ausfallenden platten funktioniert natürlich nur unter der annahme, das 2 platten das raid-array vollständig unbrauchbar machen - gilt also in dem fall nur für raid 0 oder raid 5 und bedingt für raid 0+1 oder 10 - raid 6 ist davon ausgenommen, da hier in jedem fall 2 ausfallen dürfen

                      aber auch hier gilt: die wahrscheinlichkeit, dass 2 platten irgendwann ausfallen ist kleiner als die, dass 3 platten irgendwann gleichzeitig ausfallen

                      1. Wie groß ist denn dann die Wahrscheinlichkeit, dass es an einem Tag zu einem Datenverlust kommt, wenn man 4 Platten und jeweils 4 Paritätsplatten hat und die Chance, dass eine Platte ausfällt (das wird erst einen Tag später gemerkt), genau 10% beträgt?

                        wie schon erwähnt, es geht nicht um die wahrscheinlichkeit eines datenverlustes, sondern um den ausfall des arrays, die dadurch entsprechenden performanceeinbrücke und die unerreichbarkeit - raid - egal welches level - ersetzt kein backup

                        Für mich schon.
                        Es ist klar, dass es keine absolute Sicherheit bietet und ich würde natürlich trotz des RAID auch weiterhin wichtige Daten auf optischen Medien sichern.
                        Das Problem ist nur... ich habe keine Lust, 500GB an Filmen auf DVDs zu brennen. Daher ist ein RAID für mich ganz praktisch, weil die Filme erhalten bleiben, auch wenn mal eine Festplatte an Altersschwäche sterben sollte.

                        bei 4 platten mit je 4 paritätsplatten (was auch immer das sein soll) haben wir also 20 festplatten

                        Ich habe mich vielleicht schlecht ausgedrückt - ich meinte 4 Festplatten, von denen jede genau einmal gespiegelt wird. D.h. man hat am Ende 8 Festplatten.

                        wenn wir nun annehmen, wir rechnen die ausfallwahrscheinlichkeit auf ein jahr und jede platte defintiv 1x im jahr ausfällt, kommt uns das geburtstagsparadoxon zu hilfe:

                        die wahrscheinlichkeit für den ausfall einer beliebigen platte an einem bestimmten tag liegt bei etwa 1/365 (ca 0,27%) - die wahrscheinlichkeit für den ausfall 2 beliebiger platten an einem beliebigen tag liegt bei sage und schreibe etwa 41%

                        dieses phänomen ist einerseits in der kryptographie bzw hash-funktionen (birthday-attack) wichtig, anderseits aber auch in der berechnung von raid arrays

                        natürlich ist das obrige nur ein beispiel - es ist keinesfalls gesagt, dass eine platte defintiv 1x im jahr ausfallen wird - aber das ganze verschiebt nur den risikobereich etwas nach unten

                        fakt ist, dass mehr platten NICHT wie landläufig erwartet zu einer höheren datensicherheit führen sondern umgekehrt - je mehr platten desto katastrophaler ist die anahme

                        Das ist doch auch in meiner Rechnung enthalten.
                        Da ich vier Festplatten mit Daten habe und für jede Festplatte genau eine Festplatte, die zur Absicherung die gleichen Daten enthält, habe ich viermal die Chance, dass zwei zusammengehörige Platten ausfallen.
                        D.h.: 10% * 10% und das ganze mal 4.
                        Wären es 8 Platten und jeweils wieder noch je eine Platte mit den gleichen Daten (also zusammen 16 Platten) dann wäre die Chance für einen Datenverlusts schon mehr als doppelt so groß (über 8%).

                        1. raid - egal welches level - ersetzt kein backup

                          Für mich schon.

                          Dann rate ich dir von einem Raid grundsätzlich ab. Denn damit würdest du dich in trügerischer Sicherheit wiegen.
                          Deine Aussage ist vergleichbar mit "ich brauch mich nicht anzugurten, ich habe einen Airbag". Und das ist Unfug.

                          Es ist klar, dass es keine absolute Sicherheit bietet und ich würde natürlich trotz des RAID auch weiterhin wichtige Daten auf optischen Medien sichern.

                          Es bietet gar keine Sicherheit in diesem Punkt. Wie ich gerade im anderen Post geschrieben habe, ist der Hauptgrund für Datenverluste menschliches Versagen, also versehetliches Löschen, unbeabsichtigtes Überschreiben usw. Und da hilft die kein Raid.

                          bei 4 platten mit je 4 paritätsplatten (was auch immer das sein soll) haben wir also 20 festplatten

                          Nicht pro Platte 4 zusätzliche, sondern pro Platte _eine_ zusätzliche. Wobei es bei Raid1 keine Partität gibt sondern eine 1:1 Spiegelung

                          Ich habe mich vielleicht schlecht ausgedrückt - ich meinte 4 Festplatten, von denen jede genau einmal gespiegelt wird. D.h. man hat am Ende 8 Festplatten.

                          Das wäre dann Raid0+1 oder Raid10, wobei Raid10 zu bevorzugen ist.

                          Wären es 8 Platten und jeweils wieder noch je eine Platte mit den gleichen Daten (also zusammen 16 Platten) dann wäre die Chance für einen Datenverlusts schon mehr als doppelt so groß (über 8%).

                          Bei einem Raid10 bleibt die Ausfallquote immer gleich. Denn es sind _immer_ nur zwei Platten, die korrespondieren. Wenn also bei 500 Platten die beiden korrespondierenden ausfallen, ist der Datenverlust exakt der gleiche wie bei vier Festplatten.

                          1. raid - egal welches level - ersetzt kein backup

                            Für mich schon.

                            Dann rate ich dir von einem Raid grundsätzlich ab. Denn damit würdest du dich in trügerischer Sicherheit wiegen.
                            Deine Aussage ist vergleichbar mit "ich brauch mich nicht anzugurten, ich habe einen Airbag". Und das ist Unfug.

                            Es ist klar, dass es keine absolute Sicherheit bietet und ich würde natürlich trotz des RAID auch weiterhin wichtige Daten auf optischen Medien sichern.

                            Es bietet gar keine Sicherheit in diesem Punkt. Wie ich gerade im anderen Post geschrieben habe, ist der Hauptgrund für Datenverluste menschliches Versagen, also versehetliches Löschen, unbeabsichtigtes Überschreiben usw. Und da hilft die kein Raid.

                            Wenn ich da selbst etwas lösche, habe ich eben Pech gehabt. Es sind ja nun keine sooo wichtigen Daten, als dass ich deswegen Probleme kriegen würde. Im Notfall könnte ich mir den Film eben nochmal ausleihen.

                            Aber: wie (wenn nicht mit RAID) soll ich denn sonst verhindern, dass bei einem Festplattenausfall alle Filme futsch sind? Ich kann sie ja nicht alle anders sichern.

                            Wären es 8 Platten und jeweils wieder noch je eine Platte mit den gleichen Daten (also zusammen 16 Platten) dann wäre die Chance für einen Datenverlusts schon mehr als doppelt so groß (über 8%).

                            Bei einem Raid10 bleibt die Ausfallquote immer gleich. Denn es sind _immer_ nur zwei Platten, die korrespondieren. Wenn also bei 500 Platten die beiden korrespondierenden ausfallen, ist der Datenverlust exakt der gleiche wie bei vier Festplatten.

                            Ja, der Datenverlust ist der gleiche. Aber die Wahrscheinlichkeit, dass es zu einem Datenverlust kommt, ist bei 500 Platten mehr als 10 mal größer als nur bei 50 Platten.

                            1. Aber: wie (wenn nicht mit RAID) soll ich denn sonst verhindern, dass bei einem Festplattenausfall alle Filme futsch sind? Ich kann sie ja nicht alle anders sichern.

                              regelmäßige replikation auf ein geeignetes, externes medium

                              raid ist schon alleine aus dem grund ein fehler, weil zb ein defektes netzteil alle platten grillen kann oder ein defekter controller die daten schrotten kann, auch ein defektes dateisystem grillt bei jedem raidlevel im schlimmsten fall alle daten - wenn du aber die daten auf ein externes, davon getrenntes system sicherst, ist dieser faktor zb schon ausgeschlossen - zb eine externe festplatte mit usb, firewire oder netzwerkverbindung - täglich per backupsoftware synchronisiert und gut ist

                              Ja, der Datenverlust ist der gleiche. Aber die Wahrscheinlichkeit, dass es zu einem Datenverlust kommt, ist bei 500 Platten mehr als 10 mal größer als nur bei 50 Platten.

                              nein - die wahrscheinlichkeit dass es zu einem datenverlust kommt, ist bei 10x so vielen platten nicht 10x so hoch da jedes array (mit 2 platten) in sich ein geschlossenes system darstellt für das die wahrscheinlichkeit getrennt berechnet wird - lediglich die wahrscheinlichkeit, dass eine platte einen fehler hat, ist höher, da es ja mehr davon gibt - natürlich steigert sich durch die vervielfachung auch die wahrscheinlichkeit, dass 2 platten im selben array draufgehen - aber sie steigt nicht linear an

                            2. Ich kann sie ja nicht alle anders sichern.

                              Nochmal: Ein Raid ist kein Backupersatz, also _keine_ Sicherung. Redundanz soll Ausfallzeiten verkürzen, sonst nichts.
                              Wenn du unbedingt ein Backup auf Raid-Basis willst, nimm 2x Raid5 und fasse sie zu einem Raid1 zusammen. Doppelte Datenhaltung kann (wohlwollend) als Backup angesehen werden.

                              Ja, der Datenverlust ist der gleiche. Aber die Wahrscheinlichkeit, dass es zu einem Datenverlust kommt, ist bei 500 Platten mehr als 10 mal größer als nur bei 50 Platten.

                              Du hast es noch nicht verstanden.

                              Es sind immer genau zwei Festplatten mit dem gleichen Inhalt. Wenn genau diese beiden Platten ausfallen, hast du einen Datenverlust. Ob du jetzt 4 Platten oder 4000 Platten hast, ist dabei völlig egal.

                              Ein Raid1 besteht aus genau 2 Festplatten (ausser du spiegelst auf mehreren Festplatten, aber den Fall lass ich jetzt mal aussen vor). Wenn du dahinter mehrere Raid1 zu einem Raid0 zusammenfasst, bleibt es immer noch ein Raid1 mit der entsprechenden Ausfallsicherheit. Und wieviele Raid1 zu einem Raid10 zusammengefasst werden, spielt dabei keine Rolle, jedes Raid1 ist für sich ein eigenständiges System.

                              Und so nebenbei. Die Menge der verlorenen Daten wird bei mehreren festplatten sogar niedriger, da sie gegenüber der Gesamtkapazität abnimmt.

                      2. da auch nur die geringste chance besteht, dass bei einem raid ein datenverlust entsteht, ist es unumgänglich eine aktives oder passives backup zu haben

                        So gering ist die Chance gar nicht.
                        Der überwiegende Grund für Datenverlust ist kein Hardwaredefekt sondern  menschliches Versagen. Das heisst, es werden Daten versehentlich gelöscht oder mit gleichen Dateienamen überschrieben (und andere Dinge).

                        Und da hilft auch eine zehnfache Redundanz nicht, weil die Daten dann auf allen Platten gelöscht wurden ;)

                        Und genau diesen Punkt ignorieren viele User.

        2. Und in DIESER Konstruktion verlierst du tatsächlich mit hoher Wahrscheinlichkeit Daten - sogar DEUTLICH wahrscheinlicher, als im obigen RAID1-Konstrukt, weil es jetzt ausreicht, wenn einfach IRGENDWELCHE zwei Laufwerke annährend gleichzeitig ausfallen.

          Mal ne saudumme Frage. Wieso diskutiert ihr hier eigentlich über Datenverlust bei Raid? Ein Raidsystem ist KEIN Backupersatz und somit ist es völlig schnurz welches System mit welcher Wahrscheinlichkeit einen Datenverlust erzeugt.

          Die Redundanz verhindert zwar, dass man das Backup zurückspielen muss, aber wenn wirklich zwei Platten ausfallen, greift man einfach auf das Backup zurück.

          Ansonsten gilt für jedes Raid, dass die Platten regelmässig getauscht werden müssen um genau solche Ausfälle zu vermeiden.

          Wer also glaubt, Raid wäre ein Ersatz für regelmässige Backups, hat den Sinn von Raid nicht verstanden und wird früher oder später in den Genuss eines Datenverlustes kommen.

          1. Wer also glaubt, Raid wäre ein Ersatz für regelmässige Backups, hat den Sinn von Raid nicht verstanden und wird früher oder später in den Genuss eines Datenverlustes kommen.

            genau darum sage ich ja: raid 5 mit einer hotspare-platte ist das vernünftigste

            wenn eine platte krepiert, sagt dir das dein halbwegs vernünftiger controller oder das betriebssystem, du tauscht die platte und weiter gehts

            in einem wartungsarmen system ist sowas unumgänglich

            1. Moin!

              Wer also glaubt, Raid wäre ein Ersatz für regelmässige Backups, hat den Sinn von Raid nicht verstanden und wird früher oder später in den Genuss eines Datenverlustes kommen.

              genau darum sage ich ja: raid 5 mit einer hotspare-platte ist das vernünftigste

              Nein, es hängt eindeutig von den Betriebsanforderungen ab, welche Lösung vernünftig ist.

              Wenn du keine Performance brauchst, insbesondere in kritischen Situationen mit einem halb defekten Array, ist RAID 5 ja eventuell ganz brauchbar - zumindest, wenn man wirklich das Maximum an Speicherkapazität aus dem verfügbaren Budget herausquetschen muß.

              Ich würde sowas nur nicht einbauen wollen. Die Gründe wurden genannt, ich muß sie nicht wiederholen.

              - Sven Rautenberg

              --
              "Love your nation - respect the others."
              1. Nein, es hängt eindeutig von den Betriebsanforderungen ab, welche Lösung vernünftig ist.

                damit hast du natürlich recht

                ich bin mit meiner aussage vom besten kosten-nutzen-faktor ausgegangen, natürlich gibts lösungen, die wesentlich praktischer sind - ist halt alles eine kostenfrage

                zb ein komplett gespiegeltes system als hot-spare- oder hot-standby-system bereitstellen

                wenn geld keine rolle spielt, bewegt man sich nicht im bereich "nehme ich 2 oder 3 platten oder kann ich mir 4 leisten" sondern eher im bereich "bestelle ich jetzt einen oder zwei container mit festplatten?" in dieser dimension ist auch die mttf der platten nicht so tragisch, da die dinger regelmäßig gewartet (sprich kopiert/vernichtet/ersetzt) werden

                1. Moin!

                  ich bin mit meiner aussage vom besten kosten-nutzen-faktor ausgegangen, natürlich gibts lösungen, die wesentlich praktischer sind - ist halt alles eine kostenfrage

                  zb ein komplett gespiegeltes system als hot-spare- oder hot-standby-system bereitstellen

                  Aber macht es einen Unterschied, ob ich mir ein RAID5 mit Hotspare (Minimum also 4 Platten) oder ein RAID 1+0 (Minimum ebenfalls 4 Platten) hinstelle? Preislich nicht, performancemäßig schon. :)

                  wenn geld keine rolle spielt, bewegt man sich nicht im bereich "nehme ich 2 oder 3 platten oder kann ich mir 4 leisten" sondern eher im bereich "bestelle ich jetzt einen oder zwei container mit festplatten?" in dieser dimension ist auch die mttf der platten nicht so tragisch, da die dinger regelmäßig gewartet (sprich kopiert/vernichtet/ersetzt) werden

                  Klar, in großen Stückzahlen eingesetzt erlebt man als Admin ja auch regelmäßig deren unplanmäßige Außerdienststellung.

                  - Sven Rautenberg

                  --
                  "Love your nation - respect the others."
                  1. Aber macht es einen Unterschied, ob ich mir ein RAID5 mit Hotspare (Minimum also 4 Platten) oder ein RAID 1+0 (Minimum ebenfalls 4 Platten) hinstelle? Preislich nicht, performancemäßig schon. :)

                    das ist klar - aber die 3 + 1 eine platte ist wartungsärmer - bei der raid 1+0-variante muss beim ausfall einer platte auf jeden fall unmittelbar eingegriffen werden - bei der raid-5-lösung übernimmt die hotspare-platte die weitere funktion und es bleibt zeit

                    man müsste also wenn ein raid 5 mit 3+1 platten und ein raid 10 oder 0+1 mit 4+1 platten vergleichen - da ist der kosten-nutzen-faktor wenns um kapazität und guter performance geht eindeutig wieder auf seiten von raid 5 - wenns um geschwindigkeit geht, ist natürlich die 10/0+1-variante schneller

                    Klar, in großen Stückzahlen eingesetzt erlebt man als Admin ja auch regelmäßig deren unplanmäßige Außerdienststellung.

                    das ist klar, je mehr man hat, desto wahrscheinlicher wird es, dass irgendwann mal irgendwas kaputt geht ;)

            2. genau darum sage ich ja: raid 5 mit einer hotspare-platte ist das vernünftigste

              Für den Heimgebrauch oder kleinen Firmen bis 5 Mitarbeitern, wo der Kosten-Nutzen-Faktor (meist) entscheidend ist, ja. In Firmenumgebungen würde ich eher Raid10 oder evtl. noch Raid6 nutzen.
              Da dann allerdings eine reine Hardwarelösung mit Wartungsvertrag, bei der ich den Hersteller auf die Füsse steigen kann, wenn was nicht läuft ;)

              wenn eine platte krepiert, sagt dir das dein halbwegs vernünftiger controller oder das betriebssystem, du tauscht die platte und weiter gehts

              Und das mindestens per Mail, besser noch per SMS.

              in einem wartungsarmen system ist sowas unumgänglich

              Wo wir wieder im Privatgebraucht oder bei einer kleinen Firma sind. Und da werde ich immer wieder Raid5 empfehlen, wenn ein Netzwerk vorhanden ist.

  2. zur allgemeinen empfehlung: raid 5 ist eine tolle sache und risko-nutzen-mäßig sicher die beste wahl - ABER (das hat sven ja schon bemerkt) steht der preis heutzutage in keinem verhältnis zum eigentlichen nutzen, da man für das geld eines gute, geeigneten controllers mittlerweile pervers viele festplatten kaufen kann - und die billigen 200-euro-controller (ja ich weiss, es gibt welche um 20 euro auch ;)) sehr begrenzt tauglich sind - vor 2 jahren hätte ich noch gesagt, nimm einen mittelklasse-controller, aber heute sicher nicht mehr

    Außerdem würde ich gerne wissen, inwieweit es bei einem RAID 5 _nicht_ möglich ist, den eingebauten Festplatten-Cache zu benutzen. Angeblich soll es ja durch die Benutzung zu Inkonsistenz führen.

    nachdem deine cache-frage bisher nicht beantwortet wurde:
    die angebliche inkonsistenz bei der nutzung des festplattencache ist absoluter schwachsinn

    du kannst den cache deiner platte nicht nutzen - weder mit raid 5 noch einen anderen raid-level oder der separaten nutzung der platte - der zwischenspeicher auf der platte teilt sich prinzipiell in zwei wichtige teile

    zum einen die command queue - hier werden die schreib und lese anfragen an die platte hinterlegt, da sich der lesekopf erst an die richtige stelle bewegen muss und die platte entsprechend gedreht werden muss (bzw sich ohnehin weiterdreht) und dann erst ausgeführt - bei sata-platten oder scsi-platten ist es üblich, dass die command queue umsortiert werden kann um so die performance zu verbessern. diese techniken nennen sich NCQ und TCQ

    der zweite teil des cache ist der lese-zwischenspeicher - hier werden daten "warm" gehalten - einerseits daten, die grade nicht durchs interface passen  und andererseits daten, die des öfteren benötigt werden oder ggf benötigt werden - zwar passen in die durchschnittlichen 2 bis 32 mb speicher einer platte nicht wirklich viele daten rein, aber für ein paar kleine informationen reichts immer (fragmente der dateizuordnungstabellen oder der boot record)

  3. Nun ist es so, dass RAID 5 Controller, die das Schreiben der Paritätsinformationen bereits hardwareseitig übernehmen, ziemlich viel Geld kosten. Andere Controller, die ebenfalls RAID 5 anbieten und etwa um den Faktor 5 weniger kosten, lassen die Paritätsinformationen von der CPU berechnen. Selbiges gilt wohl auch für Mainboards mit entsprechender Funktion.

    Ich rate dir grundsätzlich von einem Hardwarecontroller ab.
    Zumindest unter Linux gibt es Softwareraids, die die CPU auch nicht mehr belasten als ein Billigcontroller.
    Der Vorteil dabei ist aber, es gibt keinen Controller, der hops gehen kann.
    Wenn also das Mainboard die Grätsche macht, einfach ein neues System aufsetzen, Softwareraid installieren und einbinden, Platten anschliessen und die Daten sind wieder da.

    Komplexe Hardwareraids kosten viel Geld und machen dadurch nur in der entsprechenden Infrastruktur Sinn. Und dann auch nur, wenn der Admin ausreichend Ahnung hat.

    Ich selbst nutze ein Softwareraid mit einem Via Epia, 1000MHz, 256MB, einem 4x SATA II Controller für den PCI Steckplatz, einer Spare-Platte am Secondary-IDE über nen IDE zu SATA-Adapter (also 5x 500GB HDDs) und einer kleinen 40GB Platte, die das System enthält und problemlos bootet, selbst wenn das Raid mal zickt.
    Das Setup des Softwareraid dauert ca. 10 Minuten und dann halt die Formatierung, je nach Plattengrössen.

    1. Nun ist es so, dass RAID 5 Controller, die das Schreiben der Paritätsinformationen bereits hardwareseitig übernehmen, ziemlich viel Geld kosten. Andere Controller, die ebenfalls RAID 5 anbieten und etwa um den Faktor 5 weniger kosten, lassen die Paritätsinformationen von der CPU berechnen. Selbiges gilt wohl auch für Mainboards mit entsprechender Funktion.

      Ich rate dir grundsätzlich von einem Hardwarecontroller ab.
      Zumindest unter Linux gibt es Softwareraids, die die CPU auch nicht mehr belasten als ein Billigcontroller.

      Kannst du mir vielleicht ein paar Werte geben? Also deine CPU und wie stark sie ausgelastet ist, wenn du Daten kopierst und so. Das wär echt cool!

      1. Kannst du mir vielleicht ein paar Werte geben? Also deine CPU und wie stark sie ausgelastet ist, wenn du Daten kopierst und so. Das wär echt cool!

        Gegenüber eines normalen Festplattenzugriffes steigt die CPU-Last um ca. 10%.
        Als das Raid noch im Server war (3,4HGz Dualcore, 2GB-Ram, 3x 500GB HDD), ergab die Messung einen Geschwindigkeitsgewinn um ca. 25% gegenüber einer einzelnen Platte, im neuen System (Quasi nur ein NAS, aber halt selbst konfiguriert) hab ich das noch nicht gemessen.

        Das ist aber immer nur ein Kompromiss zwischen Redundanz und Geschwindigkeit. Und, wie ich unten geschrieben hab, in keinem Fall ein Ersatz für ein regelmässiges Backup.

        Was noch wichtig ist, die Festplatten sollten alle vom gleichen Hersteller sein und die gleiche Kapazität haben. Am besten noch sie sind aus einer einzigen Serie.

        1. Moin!

          Was noch wichtig ist, die Festplatten sollten alle vom gleichen Hersteller sein und die gleiche Kapazität haben. Am besten noch sie sind aus einer einzigen Serie.

          Das ist eben gerade nicht notwendig, wenn man das Linux-Software-RAID einsetzt. Und man sollte es, je nach Grad der Paranoia, sogar vermeiden, ziemlich identische Laufwerke einzusetzen. Wenn es nämlich mal wirklich zu einem Serienfehler einer Produktion kommt, sterben einem mit Pech schnell hintereinander die Laufwerke, ohne dass man rasch Ersatz beschaffen und einbauen kann.

          Software-RAID erfordert lediglich, dass die genutzten Platten eine ähnlich große Anzahl von Sektoren enthalten - die kleinste Sektorenzahl wird dann im plattenübergreifenden RAID-Verbund nutzbar gemacht, die überschüssigen Sektoren der leicht größeren Platte drehen sich ungenutzt mit.

          - Sven Rautenberg

          --
          "Love your nation - respect the others."
          1. Das ist eben gerade nicht notwendig,

            Ich sagte kein Wort davon, das es notwendig wäre. Aber es ist sinnvoll.
            Wird u.a. vom "Schöpfer" des Sofwareraid unter Linux empfohlen. Und ich denke, der hat Ahnung von seinem System.

            1. Wird u.a. vom "Schöpfer" des Sofwareraid unter Linux empfohlen. Und ich denke, der hat Ahnung von seinem System.

              die meisten software-leute haben von hardware nicht viel ahnung - insbesondere bei sata- oder scsi-geräten bekommt das system garnicht mehr viel von der darunterliegenden geräten mit - das gerät identifiziert sich zwar "ein bisschen", kommuniziert aber grundsätzlich über den controller

              ob das eine festplatte ist, ein solid-state-laufwerk oder eine speicherkartenleser ist dem betriebssystem eigentlich egal

            2. Moin!

              Das ist eben gerade nicht notwendig,

              Ich sagte kein Wort davon, das es notwendig wäre. Aber es ist sinnvoll.

              Nun ja, die Formulierung "Was noch wichtig ist, die Festplatten sollten alle vom gleichen Hersteller sein und die gleiche Kapazität haben." deutet eigentlich schon darauf hin, dass es dir als sehr notwendig erscheint.

              Und das ist es eben gerade nicht. Im Gegenteil erhöhst du dein Ausfallrisiko signifikant, wenn du ein Array ausschließlich aus Festplatten des identischen Produktionsprozesses aufbaust.

              Deshalb ist gerade diese Vorgehensweise NICHT RATSAM! Empfohlen wird immer, das Risiko möglichst gut zu streuen, indem Festplatten UNTERSCHIEDLICHER Hersteller verwendet werden, oder zumindest unterschiedlicher Fertigungsserien. Ganz schlecht sind nahe beieinanderliegende Seriennummern.

              Wird u.a. vom "Schöpfer" des Sofwareraid unter Linux empfohlen. Und ich denke, der hat Ahnung von seinem System.

              Da hast du bestimmt einen passenden Link für mich, der das zeigt.

              - Sven Rautenberg

              --
              "Love your nation - respect the others."
              1. Nun ja, die Formulierung "Was noch wichtig ist, die Festplatten sollten alle vom gleichen Hersteller sein und die gleiche Kapazität haben." deutet eigentlich schon darauf hin, dass es dir als sehr notwendig erscheint.

                Ein "sollte" ist in meinen Augen kein "es ist notwendig". Wenn es so verstanden wurde, revidiere ich. Es ist _nicht_ notwendig. Ich hoffe, es sind jetzt alle Klarheiten beseitigt ;)

                Und das ist es eben gerade nicht. Im Gegenteil erhöhst du dein Ausfallrisiko signifikant, wenn du ein Array ausschließlich aus Festplatten des identischen Produktionsprozesses aufbaust.

                Deshalb hab ich mehrfach geschrieben, dass in Raid-Systemen die Festplatten getauscht werden, wenn bestimmte Betriebsstunden erreicht wurden.

                Deshalb ist gerade diese Vorgehensweise NICHT RATSAM! Empfohlen wird immer, das Risiko möglichst gut zu streuen, indem Festplatten UNTERSCHIEDLICHER Hersteller verwendet werden, oder zumindest unterschiedlicher Fertigungsserien. Ganz schlecht sind nahe beieinanderliegende Seriennummern.

                Dann sagst du also, hochwertige Raids von namhafter Herstellern sind Ausfallgefährdet, weil die Festplatten meist sogar aus einer Charge stammen?
                Dann müssen die Leute von Cisco, HP und Co ziemliche Idioten sein.
                Und deren Kunden noch viel mehr, da sie Schrott kaufen.

                Mal ehrlich, wieso machen es die Firmen so, wenns doch so schlecht ist? Ich denke, die haben ihre Gründe, wieso sie solche Empfehlungen rausgeben.

                Wird u.a. vom "Schöpfer" des Sofwareraid unter Linux empfohlen. Und ich denke, der hat Ahnung von seinem System.

                Da hast du bestimmt einen passenden Link für mich, der das zeigt.

                Nein, da ich dieses Telefonat nicht mitgeschnitten habe. Damit kann ich also nicht dienen.

                1. Dann sagst du also, hochwertige Raids von namhafter Herstellern sind Ausfallgefährdet, weil die Festplatten meist sogar aus einer Charge stammen?
                  Dann müssen die Leute von Cisco, HP und Co ziemliche Idioten sein.
                  Und deren Kunden noch viel mehr, da sie Schrott kaufen.

                  wie in diesem thread beschrieben hat das wirtschaftliche gründe

                  1. wie in diesem thread beschrieben hat das wirtschaftliche gründe

                    Wie dort geantwortet, hat eine Empfehlung nichts mit der Wirtschaftlichkeit zu tun. Meinst du, den Lieferanten (HP, Cisco usw.) interessiert es, ob du für eine Festplatte 5% Rabatt bekommst, weil du gleich 8 Stück einkaufst?

                    1. Wie dort geantwortet, hat eine Empfehlung nichts mit der Wirtschaftlichkeit zu tun. Meinst du, den Lieferanten (HP, Cisco usw.) interessiert es, ob du für eine Festplatte 5% Rabatt bekommst, weil du gleich 8 Stück einkaufst?

                      ich weiss nicht in welchen dimensionen du in der it branche einkaufst oder eingekauft hast - üblich ist es jedenfalls, dass man (sollte man direkt beim hersteller kaufen) einen container kauft - da sind üblicherweise nicht 8 festplatten drinnen sondern bei rund 40 stück pro karton - auf einer palette sind dann sagen wir rund 60 bis 120 kartons und die werden dann in einen container gepackt - so etwa 20 paletten - annahme 50 dollar pro platte

                      wenn du jetzt für rund 5 millionen dollar festplatten einkaufst und permament, verlangst du nicht 5% rabatt sondern 15% oder 25% - die alternative wäre dann immer noch "wir suchen uns einen anderen zulieferer"

                      intel ist zb dafür bekannt, dass man gerne mal angebote an oems macht: "kauft  100.000 cpus bei uns und ihr bekommt die mainboards gratis dazu"

                      google hat zb vor rund 2 jahren begonnen, 200.000 server von intel auf amd-systeme umzustellen - glaubst du im ernst, in solchen dimensionen gehts noch um 5% rabatt?

                      1. ich weiss nicht in welchen dimensionen du in der it branche einkaufst oder eingekauft hast

                        Ich seh den Zusammenhang mit dem Thema nicht. Es ging darum, dass die grossen Firmen Empfehlungen rausgeben und die sind unabhängig von den Einkaufspreisen. Denn die haben nichts davon, wenn eine Firma ein Raidsystem kauft und es mit 8 Platten pro Stück füllen will.

                        Es geht hier um Raidsysteme, nicht darum ob HP nen Container Platten kauft. Wenn sie mehr Umsatz machen wollen, empfehlen sie die Platten, die sie selbst vertreiben, aber nicht allgemein Festplatten aus einer Charge o.ä.
                        Bitte nicht irgendwelche Dinge mischen, die keinen Zusammenhang haben, das bringt niemanden was.

                        1. Moin!

                          ich weiss nicht in welchen dimensionen du in der it branche einkaufst oder eingekauft hast

                          Ich seh den Zusammenhang mit dem Thema nicht. Es ging darum, dass die grossen Firmen Empfehlungen rausgeben und die sind unabhängig von den Einkaufspreisen. Denn die haben nichts davon, wenn eine Firma ein Raidsystem kauft und es mit 8 Platten pro Stück füllen will.

                          Richtig, du diskutierst hier Aspekte des Themas, die in der Originalfragestellung absolut nicht relevant sind.

                          Ich meine: Wenn jemand fragt, ob RAID 5 besser sei als irgendeine Alternative, und er die gesamte Zeit über durchblicken läßt, dass er ausschließlich auf das "I = inexpensive" abfährt, dann kannst du ihm nicht mit "Die Platten eines Arrays werden sowieso vor Erreichen der Lebensdauer durchgetauscht" kommen, weil er garantiert keine funktionsfähige Platte nur aus Sicherheitsgründen austauschen wird - selbst wenn die in den nächsten drei Jahren ihrer Lebensdauer nur noch ein Bruchteil dessen kostet. Wobei das mit dem Bruchteil so ja auch nicht wirklich stimmt: Alle Festplatten streben einem gewissen Minimumpreis entgegen, dem sie sich asymptotisch annähern - je höher die Kapazität an dem marktverfügbaren Maximum dran ist, desto größer ist der Preisaufschlag.

                          - Sven Rautenberg

                          --
                          "Love your nation - respect the others."
                          1. Ich seh den Zusammenhang mit dem Thema nicht. Es ging darum, dass die grossen Firmen Empfehlungen rausgeben und die sind unabhängig von den Einkaufspreisen.

                            Richtig, du diskutierst hier Aspekte des Themas, die in der Originalfragestellung absolut nicht relevant sind.

                            es ging mir darum, dass anbieter von fertigen raidsystemen (mit festplatten) aus wirtschaftlichen gründen beim festplattenkauf nur festplatten eines bestimmten herstellers kaufen

                            zb von HP, weil das so oft genannt wurde - die storageworks-produktreihe ist sowas in die richtung - das sind ein paar terabyte gleich dabei - diese platten, die der hersteller mitliefert, nimmt er nicht aus kompatiblitätsgründen oder sonstigen schmafu sondern schlichtweg aus wirtschaftlicher sicht

                            zudem geben große unternehmen oft empfehlungen raus, diese sind aber in den meisten fällen gekauft und es steckt viel kohle dahinter - oder meint ihr im ernst, "führende waschmaschinenhersteller empfehlen calgon", nur weil das zeug wirklich so gut ist?

                            1. zudem geben große unternehmen oft empfehlungen raus, diese sind aber in den meisten fällen gekauft und es steckt viel kohle dahinter

                              Dann erklär mir jetzt bitte mal, wie eine Empfehlung "Es sollen Platten eines Herstellers, besser noch einer Charge verwendet werden" gekauft sein soll.

                              Und genau dieser Satz stand im Handbuch des letzten Raids, das ich eingebaut habe. Ich kann beim besten Willen nicht erkennen., welcher Plattenhersteller davon gezielt profitieren könnte, dass er den Hersteller dafür viel Geld gibt.

                              Und nein, das Handbuch hab ich nicht mehr, sonst würde ich es dir einscannen und zur Ansicht überlassen.

                              1. Dann erklär mir jetzt bitte mal [...]

                                ich hab auch nicht für alles eine erklärung bereit ;) ich weiss nur, was ich (aus erfahrung) weiß oder mit gesundem menschenverstand erklären lässt

                                es ist wie gesagt branchenüblich, bestimmte dinge zu empfehlen - bei mehrkanalarbeitsspeichern sind exakt baugleiche module die miteinander getestet wurden ebenfalls empfohlen - hier hat das den sinn, dass der speichercontroller gleichzeitig mehrere speicher anspricht - nur ein winziger defekt in einem der ics würde asynchrone daten verursachen und somit den betrieb stören

                                es ist hier sogar nichtmal gesagt, dass speicher aus der selben charge mit ansteigender seriennummer zusammen funktionieren

                                bei festplatten, die an einem stinknormalen controller hängen, ist das logisch betrachtet nicht relevant, da die kommunikation separiert durch den controller passiert und das betriebssytem davon nichts mitbringt

                                bei fertigen systemen mit angepassten controllern ist es aber durchaus sinnvoll exakt identische platten zu verwenden, da der controller sich verwaltungsaufwand spart, wenn jede platte exakt gleich angesprochen wird - und das ist bei teuren controllern mit eigenen chipsätzen der fall

                                ursprünglich hast du hier erwähnt, dass da ganze von diesem linux-typen gesagt wurde

                                wie schon erwähnt ist das in diesem fall absolut nicht nachvollziehbar, da das betriebssystem keinen einfluss darauf hat, wie der/die controller seine platten anspricht - ein software raid unter linux oder windows müss nichtmal auf platten des selben controllers zugreifen - du kannst eine p-ata, eine s-ata und eine sas-platte an verschiedenen controllern verwenden und es wird vermutlich trotzdem (wenn auch nicht so schnell) funktionieren

                                bei wirklich verdammt teureren hardware-raid-systemen, wo der controller selbst nach aussenhin dem betriebssystem EIN laufwerk zur verfügung stellt, übernimmt er den kompletten verwaltungsaufwand für die kommunikation mit den platten - wenn dann jede platte, weil ident, exakt die selben daten bekommt, spart sich der controller einiges an arbeit - das problem ist vor allem bei sas-controllern zu finden, an die man problemlos auch sata-150 und sata-300 platten anhängen muss, hier können natürlich performanceunterschiede entstehen, da da die platten mit völlig anderen befehlsfolgen angesprochen werden - eine platte wird direkt gefüttert, die andere unterstützt NCQ, wieder eine andere arbeitet mit TCQ - dass das unnötig overhead produziert, ist klar - das hatte ich bisher noch nicht bedacht, aber sowas wird wohl kaum jemand machen

                                aber wie gesagt: dass mehrere technisch etwa gleichwertige platten die funktion des controllers beinträchtigen oder die performance stark drücken ist äusserst unwahrscheinlich

                                diesen hinweis im handbuch sehe ich eher als sicherheitsinformation an, wie sie in jedem handbuch zu finden sind und man sich teilweise ans hirn greift, warum das so ist

                          2. Richtig, du diskutierst hier Aspekte des Themas, die in der Originalfragestellung absolut nicht relevant sind.

                            Also Moment mal. Ich habe lediglich das weitergegeben, was mein Wissensstand ist. Angefangen zu diskutieren hast _du_, obwohl ich bisher nichts gelesen habe, was meine Ausführungen widerlegt.
                            Du stellst nur alles in Frage und argumentierst nur mit deiner eigenen Meinung.

                            Also mach mir keine Vorwürfe, dass ich darauf reagiere, was du losgetreten hast.

          2. Software-RAID erfordert lediglich, dass die genutzten Platten eine ähnlich große Anzahl von Sektoren enthalten - die kleinste Sektorenzahl wird dann im plattenübergreifenden RAID-Verbund nutzbar gemacht, die überschüssigen Sektoren der leicht größeren Platte drehen sich ungenutzt mit.

            ich hatte bisher keinen hardwarecontroller bei dem das anders war - bisher wars auch immer egal, welche platten verwandt wurden

            bez unterschiedlicher hersteller und kapazitäten gibts jedenfalls kein problem - aber tendientiell würde ich auch zu unterschiedlichen modellen oder modellserien bzw herstellern raten, da die mttf von "baugleichen platten aus der selben serie mit ansteigenden seriennummern" annähernd identisch ist - wenn man pech hat, sterben auch bei normaler funktion die platten nach ein paar jahren reihenweise weg

            1. bez unterschiedlicher hersteller und kapazitäten gibts jedenfalls kein problem

              Ich sagte nie, dass es ein Problem gibt. Aber bei gleichen Platten bleiben keine Sektoren ungenutzt.

              • aber tendientiell würde ich auch zu unterschiedlichen modellen oder modellserien bzw herstellern raten,

              Dann rätst du etwas anderes als die Hersteller grosser Raidsysteme. Wem ich jetzt mehr Wissen über die Materie zutraue, behalt ich jetzt mal für mich.

              da die mttf von "baugleichen platten aus der selben serie mit ansteigenden seriennummern" annähernd identisch ist - wenn man pech hat, sterben auch bei normaler funktion die platten nach ein paar jahren reihenweise weg

              Aus diesem Grund habe ich in einem anderen Post geschrieben, dass in einem Raid die Platten regelmässig gewechselt werden. Und zwar _bevor_ die garantierte Laufzeit abgelaufen ist.

              1. Dann rätst du etwas anderes als die Hersteller grosser Raidsysteme. Wem ich jetzt mehr Wissen über die Materie zutraue, behalt ich jetzt mal für mich.

                das kommt auf die dimension drauf an - wenn du 10.000 festplatten bei seagate kaufst, bekommst du bessere konditionen als wenn du 2000 bei seagate, 2000 bei hitachi, 2000 bei western digital, 2000 bei lacie und 2000 bei samsung kaufst ;) - dass in solchen fällen statistische dinge nicht unbedingt in betracht gezogen werden, ist verständlich - zwar ist die chance eines schadens durch einen serienfehlers bei mehreren platten unterschiedlicher hersteller größer, aber die chance, dass ein serienfehler zum ausfall des kompletten arrays führt eben geringer

                verschiedene platte hat schon etwas mit paranoia zu tun - prinzipiell sind festplatten mittlerweile sehr zuverlässig, daher sind potentielle serienfehler vernachlässigbar und wer sein raid zu backup-zwecken einsetzt ist sowieso selbst schuld ;)

                wie gesagt: das ganze hat nichts mit wissen über die materie zu tun, sondern einfach nur mit hausverstand - monokulturen sind in den meisten fällen anfälliger als mischsysteme

                aber aus wirtschaftlichen gesichtspunkten werden monokulturen gerne in kauf genommen - ein kleiner garten zuhause mit vielen verschiedenen planzen ist wesentlich weniger anfällig gegen einen bestimmten schädling als eine riesige plantage mit nur einer planzensorte, welche durch eine bestimmten schädlich vollständig dahingerafft wird

                aus wirtschaftlichen gründen wird aber meist zur monokultur gegriffen (schnellere produktion durch abgestimmte anzuchtbedingungen, wie etwa boden oder dünger und natürlich die schnellere und vor allem zeitgleiche ernte)

                1. dass in solchen fällen statistische dinge nicht unbedingt in betracht gezogen werden, ist verständlich

                  Wir reden aneinander vorbei. Ich sagte, sie _empfehlen_ Platten aus einer Serie.

                  wer sein raid zu backup-zwecken einsetzt ist sowieso selbst schuld ;)

                  Da sind wir uns in jedem Fall einig ;)

                  wie gesagt: das ganze hat nichts mit wissen über die materie zu tun, sondern einfach nur mit hausverstand - monokulturen sind in den meisten fällen anfälliger als mischsysteme

                  Ich hab recht viel mit Raidsystemen zu tun und noch nie Probleme damit, dass mehrere Festplatten zeitnah ausgefallen sind. Nur ein einziges mal, als das Netzteil per Überspannung alle Platten zerlegt hat, das hätten aber auch verschiedene Platten nicht überlebt.

                  aber aus wirtschaftlichen gesichtspunkten werden monokulturen gerne in kauf genommen - ein kleiner garten zuhause mit vielen verschiedenen planzen ist wesentlich weniger anfällig gegen einen bestimmten schädling als eine riesige plantage mit nur einer planzensorte, welche durch eine bestimmten schädlich vollständig dahingerafft wird

                  Der Vergleich hinkt aber. Eine Festplatte bleibt auch eine solche, wenn sie von einem anderen Hersteller kommt. Somit werden sie auch durch die selben Einflüsse zerstört. Es ist ja nicht so, dass eine Seagate-Platte nur durch Überspannung und eine WD-Platte nur durch schwere EWrschütterung zerstört wird.

                  aus wirtschaftlichen gründen wird aber meist zur monokultur gegriffen (schnellere produktion durch abgestimmte anzuchtbedingungen, wie etwa boden oder dünger und natürlich die schnellere und vor allem zeitgleiche ernte)

                  Der Vergleich hinkt immer noch.

                  1. Vergleich hinkt immer noch.

                    eine überspannung die alle platten grillt, ist kein serienfehler ;)

                    ich hab etliche jahre in der hardwarebranche gearbeitet und ein paar serienfehler miterlebt

                    ibm dtla bzw später die ic-serie mit avvr oder aver (bin nicht sicher) endung) sollte jedem eim begriff sein, der schon mal mit toten festplatten zu tun hatte - du kaufst ein paar platten und ein paar monate später gehen dir von den gekaufen platten jede woche 1 bis 2 stück vor die hunde - wenn soetwas passiert, dann beisst du dir in den arsch

                    1. du kaufst ein paar platten und ein paar monate später gehen dir von den gekaufen platten jede woche 1 bis 2 stück vor die hunde - wenn soetwas passiert, dann beisst du dir in den arsch

                      Ich hab davon gehört, selbst aber nie erlebt. Einmal haben wir Ersatz bekommen, weil der Hersteller die Charge zurückgezogen hat, das war alles.
                      Wenn einmal die Woche 1 oder 2 Platten abrauchen, sind in 3-4 Wochen alle Platten eh getauscht.

                      Wie gesagt, ich spreche nur von meinen Erfahrungen. Es mag sein, dass ich die Gefahr unterschätze, wobei dann grosse Hersteller vermutlich schon pleite wären.

                      Somit bleibt wohl zu sagen, wer sich so ein System aufbaut muss selbst entscheiden, was er macht. Ich würde bei gleichen Platten bleiben, weil ich nie Probleme hatte. Wenn du und andere damit schon schlechte Erfahrung gemacht haben, wirst du wohl auf verschiedene Platten zurückgreifen.

                      Einigen wir uns auf ein Unentschieden? ;)

                      1. Wie gesagt, ich spreche nur von meinen Erfahrungen. Es mag sein, dass ich die Gefahr unterschätze, wobei dann grosse Hersteller vermutlich schon pleite wären.

                        ich kenne die gründe leider nicht - aber ibm hat die festplattensparte wahrscheinlich nicht umsonst an hitachi verkauft ;)

                        Ich würde bei gleichen Platten bleiben, weil ich nie Probleme hatte. Wenn du und andere damit schon schlechte Erfahrung gemacht haben, wirst du wohl auf verschiedene Platten zurückgreifen.

                        nein, das ist wie mit zwangsstörungen - obwohl ich weiß, dass es logisch betrachtet sinnvoller ist, verschiedene platten zu nehmen (auch wenn ein serienfehler der alles in kurzer zeit dahinrafft extrem selten passiert), benutze ich selbst identische platten - das hat etwas mit ästhetik zu tun ;)

                        wie gesagt, serienfehler sind nur lästig, wenn man wirklich viele platten hat - bei 10 platten ist das egal, wenn du aber die ganze infrastruktur in einem mittelständischen unternehmen mit sagen wir 250 rechnern auf ein und das selbe plattenmodell aufbaust, verzweifelst du, wenn du alles (auch wenns nur vorsorglich ist) tauschen musst