Tanja: Analysetools zur Fehlerquote

Guten Tag.

ein wenig Offtopic, aber ich bin mir sicher, dass ihr wisst, was ich meine:
In einer NoSQL DB werden verschiedene Eingabeparameter, Mermale und Umgebungseigenschaften erfasst. Diese sind jeweils optional und weder vollständig noch vordefiniert.

Zu jedem Eintrag gibt es einen Erfolgsfaktor, wobei score=0 bedeutet, dass in der Produktionskette ein kritischer Fehler unterlaufen ist.
score=0.5 bedeutet, dass die Hälfte fehlerhaft war. score=1 wäre der Optimalfall.

Nun wird ein Tool zur Analyse der erstmal "anonymen" Eigenschaften benötigt. Ohne die Eigenschaften zu kennen und bewerten oder zu interpretieren, sollten Fehlerquellen ermittelt werden. Ziel wäre, per Brute-Force die verschiedenen Eigenschaften und Kombinationen aus diesen mit dem Erfolgsfaktor in Beziehung zu setzen um festzustellen, welche davon Einfluss auf den score haben und welche das sind.

Hätten wir nur drei Parameter p1, p2, p3, so könnte ein Ergebnis sein, dass p2 und p3 erstmal kaum Einfluss auf das Ergebnis haben; dafür aber das Pärchen p2=5 und p3=10 unterdurchschnittliche scores liefert.
So ein Brute-Force Tool darf sich gerne Zeit lassen, wenn es dafür unvoreingenommen ist.
Das Prinzip kann einfach gestrickt sein und "nur" alle Kombinationen prüfen um daraus Auffälligkeiten abzuleiten.

Habt ihr einen Tipp, welches Tool sich hier für den Einstieg eignet?

Beste Grüße
Tanja

  1. Hallo,
    Wenn ich Dich richtig verstanden habe, möchtest Du Korrelationen zwischen verschiedenen Variablen (p1, p2, p3,...) und Deinem Score-Wert (score) finden.

    Die Statistik kennt dazu unterschiedliche Methoden, mit denen man das erreichen kann - um diese effektiv anwenden zu können, muss man aber ein recht fundiertes Statisitik-Wissen haben (was mir leider auch fehlt).

    Habt ihr einen Tipp, welches Tool sich hier für den Einstieg eignet?

    An der Uni haben wir für die Auswertung von Experimenten SPSS benutzt - das ist aber für Deinen Anwendungsfall sicher zu viel des Guten (davon abgesehen ist SPSS ohne Statistik-Kenntnisse auch ziemlich haarig in der Bedienung).

    Eigentlich müsstest Du auch schon mit Excel (respektive OpenOffice Calc) ganz gute Ergebnisse erzielen können.

    Mein Ansatz wäre daher:
    -> NoSQL-Datenbank als CSV exportieren
    -> in Excel importieren
    -> sich im Internet schlau machen, wie man am besten Korrelationen mit Excel bestimmen kann und schauen, welche Methode sich für Deine Daten am besten eignet.

    Viele Grüße,
    Jörg

    1. Guten Abend Jörg,

      Vielen dank für die Ausführungen, die ich übrigens sofort befolgt habe und mit ersten Testdaten teilweise sogar erfolgreich experementieren konnte.

      An einer Sache hakt es leider noch. Verfügt ein Parameter nicht über Werte, sondern Konstanten oder Strings, deren Übersetzung in geordnete Zahlenwerte o.ä. unsinnig ist, die jedoch durchaus relevant sind für die Auswertung, kann das Analyseverfahren erstmal nicht damit umgehen.
      Einfaches Beispiel wären Parameter wie Herstellungsland und Jahreszeit.

      Diese einzeln zu betrachten wäre ebenso unsinnig wie die Konvertierung in Zahlen anstelle von Ländernamen. Auch die Reihenfolge der Jahreszeiten sollte irrelevant sein. Die Jahreszeit selbst in Kombination mit dem Herstellungsland jedoch schon.

      Müsste dazu (manuell) für jede Kombination aus nicht-geordneten Parametern die Analyse einzeln für mögliche Kombinationen durchgeführt werden und anschließend jede einzelne gegenübergestellt werden?
      Habe ich ein "Funktionsmerkmal" dieser Analyse übersehen oder kann sie das wirklich nicht? => erstmal unabhängig von den einzelnen Tools.

      Grüße Tanja

      1. Hallo,
        Wie gesagt, ich bin leider in Statistik auch nicht wirklich firm - ich hatte im Studium Psychologie als Nebenfach, dort haben wir den bereich Statistik mal gestreift und ein paar Versuche statistisch ausgewertet...aber eben mehr auch nicht.

        Ich weiss aber, dass es Methoden gibt, mit denen auch sowas geht (habe z.b. nach kurzem Googlen die diskrete Regressionsanalyse gefunden, die glaube ich genau das macht, was Du suchst) - für Details müsste ich mich aber auch erst einlesen.

        Vielleicht gibts ja hier im Forum noch Statistik-Profis die etwas mehr dazu sagen können?

        Viele Grüße,
        Jörg

      2. Guten Abend Jörg,

        Vielen dank für die Ausführungen, die ich übrigens sofort befolgt habe und mit ersten Testdaten teilweise sogar erfolgreich experementieren konnte.

        An einer Sache hakt es leider noch. Verfügt ein Parameter nicht über Werte, sondern Konstanten oder Strings, deren Übersetzung in geordnete Zahlenwerte o.ä. unsinnig ist, die jedoch durchaus relevant sind für die Auswertung, kann das Analyseverfahren erstmal nicht damit umgehen.
        Einfaches Beispiel wären Parameter wie Herstellungsland und Jahreszeit.

        Genau. Lies die Links durch die ich gepostet habe. Da steht ganz genau dieser Fall beschrieben. (eben mit nicht numerische (= nominale oder ordinate) Daten)

  2. Hätten wir nur drei Parameter p1, p2, p3, so könnte ein Ergebnis sein, dass p2 und p3 erstmal kaum Einfluss auf das Ergebnis haben; dafür aber das Pärchen p2=5 und p3=10 unterdurchschnittliche scores liefert.
    So ein Brute-Force Tool darf sich gerne Zeit lassen, wenn es dafür unvoreingenommen ist.
    Das Prinzip kann einfach gestrickt sein und "nur" alle Kombinationen prüfen um daraus Auffälligkeiten abzuleiten.

    Habt ihr einen Tipp, welches Tool sich hier für den Einstieg eignet?

    Wenn du nicht gleich Software kaufen willst: R
    http://de.wikipedia.org/wiki/R_%28Programmiersprache%29

    Wie man das genau anstellt, dazu hat dir der lieber Herr Jerk bereits Infos geliefert.
    Hier nochmal Wikipedia: http://de.wikipedia.org/wiki/Varianzanalyse