performance problem von Schneider, 19.06.2009 17:01

performance problem

Schneider 19.06.2009 16:36

datenbank

Guten Tag,
ich habe eine Frage bezüglich Performance einer Mysql-Datenbank-Abfrage.

folgende Datenbankstruktur/inhalt ist gegeben:

Nun möchte ich alle Datensätze herausfiltern, die eine doppelte ID (id) haben. Folgendes SQL-Statement benutze ich dazu:

SELECT *
FROM test
WHERE id
IN (

SELECT id
FROM test
GROUP BY id
HAVING count( id ) >1
)

Leider dauert diese Abfrage sehr lange ( > 30 sec, es handelt sich nur um ca. 1000 Datensätze). Woran kann das liegen? Fernziel soll das Löschen dieser doppelten Datensätze sein.

Beitrag melden

– Informationen zu den Bewertungsregeln

performance problem
ChrisB 19.06.2009 16:42

datenbank
– Informationen zu den Bewertungsregeln
Hi,

Nun möchte ich alle Datensätze herausfiltern, die eine doppelte ID (id) haben.

Ein Feld id zu benennen, dass nicht in der Lage ist, Datensätze eindeutig zu identifizieren, ist ziemlich "pervers".

SELECT *
FROM test
WHERE id
IN (

SELECT id
FROM test
GROUP BY id
HAVING count( id ) >1
)

Leider dauert diese Abfrage sehr lange ( > 30 sec, es handelt sich nur um ca. 1000 Datensätze). Woran kann das liegen?

Was sagt EXPLAIN zum Statement?

Und wieso führst du hier überhaupt eine Subquery aus?
Du "musst" wohl, weil du keine vernünftige Möglichkeit (vorgesehen) hast, Datensätze zu identifizieren - so dass dir nur bleibt, aussen herum den kompletten Datensatzinhalt zu ermitteln, um diesen beim Löschen zur Selektion verwenden zu können?

MfG ChrisB

--
Light travels faster than sound - that's why most people appear bright until you hear them speak.
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. performance problem
  
  Schneider 19.06.2009 16:47
  
  datenbank
  – Informationen zu den Bewertungsregeln
  Hallo,
  
  Ein Feld id zu benennen, dass nicht in der Lage ist, Datensätze eindeutig zu identifizieren, ist ziemlich "pervers".
  
  Vorgabe, kann man nichts machen. Und in der Welt, in der es existiert, äußerst sinnvoll.
  
  Und wieso führst du hier überhaupt eine Subquery aus?
  
  Um ein späteres Löschen derselbigen zu ermöglichen.
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. performance problem
    
    ChrisB 19.06.2009 16:48
    
    datenbank
    
    – Informationen zu den Bewertungsregeln
    Hi,
    
    Ein Feld id zu benennen, dass nicht in der Lage ist, Datensätze eindeutig zu identifizieren, ist ziemlich "pervers".
    
    Vorgabe, kann man nichts machen. Und in der Welt, in der es existiert, äußerst sinnvoll.
    
    Gut, wenn in dieser Welt kein Problem existiert, ist ja alles in Butter.
    
    Ich dachte, du hättest ein Problem mit dem Ganzen.
    
    MfG ChrisB
    
    --
    Light travels faster than sound - that's why most people appear bright until you hear them speak.
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. performance problem
      
      Schneider 19.06.2009 16:51
      
      datenbank
      
      – Informationen zu den Bewertungsregeln
      
      du scheinst nicht oder zumindest schlecht lesen zu können....
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. performance problem
        
        ChrisB 19.06.2009 16:52
        
        datenbank
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        du scheinst nicht oder zumindest schlecht lesen zu können....
        
        In wie fern?
        
        MfG ChrisB
        
        --
        Light travels faster than sound - that's why most people appear bright until you hear them speak.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
    2. performance problem
      
      Schneider 19.06.2009 16:57
      
      datenbank
      
      – Informationen zu den Bewertungsregeln
      
      Aussage:
      Vorgabe, kann man nichts machen. Und in der Welt, in der es* existiert, äußerst sinnvoll.
      
      *Bereitstellung von ids mit _nicht_ eindeutigen Werten zur Berechnung bestimmter unwichtiger Dinge
      
      Antwort:
      Gut, wenn in dieser Welt kein Problem existiert, ist ja alles in Butter.
      Ich dachte, du hättest ein Problem mit dem Ganzen.
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. performance problem
        
        Schneider 19.06.2009 17:01
        
        datenbank
        
        – Informationen zu den Bewertungsregeln
        
        SELECT * FROM test WHERE id IN (
          SELECT MAX(id)
          FROM test
          GROUP BY id
          HAVING COUNT(*) > 1
        )
        
        Dieser Code, gefunden hier:
        http://forum.de.selfhtml.org/archiv/2005/5/t107296/
        
        weisst ebenfalls dieses Problem auf...
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
      2. performance problem
        
        ChrisB 19.06.2009 17:05
        
        datenbank
        
        – Informationen zu den Bewertungsregeln
        
        Hi,
        
        Vorgabe, kann man nichts machen. Und in der Welt, in der es* existiert, äußerst sinnvoll.
        
        Also sollen in dieser Welt keine Duplikate gelöscht werden.
        
        *Bereitstellung von ids mit _nicht_ eindeutigen Werten zur Berechnung bestimmter unwichtiger Dinge
        
        Wenn diese ID sich auf irgendwelche externen Daten bezieht, dann kann sie gerne in einer zusätzlichen Spalte als Fremdschlüssel stehen.
        Trotzdem sollte jeder Datensatz eine eigene, "richtige" ID bekommen.
        
        Gut, wenn in dieser Welt kein Problem existiert, ist ja alles in Butter.
        Ich dachte, du hättest ein Problem mit dem Ganzen.
        
        Und ich dachte, *du* hättest eins mit dem "Ganzen" - nämlich was die Performance beim für's Löschen von Duplikaten nötigen Auffinden und Identifizieren dieser angeht ...
        
        MfG ChrisB
        
        --
        Light travels faster than sound - that's why most people appear bright until you hear them speak.
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
        
        performance problem
        
        Schneider 19.06.2009 17:12
        
        datenbank
        
        – Informationen zu den Bewertungsregeln
        
        Lieber ChrisB,
        
        "Wenn diese ID sich auf irgendwelche externen Daten bezieht, dann kann sie gerne in einer zusätzlichen Spalte als Fremdschlüssel stehen.
        Trotzdem sollte jeder Datensatz eine eigene, "richtige" ID bekommen."
        
        das ist ja alles richtig was du sagst. Aber es handelt sich hier um eine Vorgabe, welchen Teil von Vorgabe hast du nicht verstanden? Ich kann in die Struktur nicht eingreifen, nichts ändern, noch etwas vorschlagen, was man ändern könnte. (Und glaube mir, es IST sinnvoll, aber das nur am Rande.)
        
        Der Rest deiner Postings ist Wortklauberei, dazu fehlt mir leider die Zeit. Habe das Problem jetzt anders gelöst.
        
        Schönes Wochenende
        Schneider
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
  2. performance problem
    
    Schneider 19.06.2009 16:49
    
    datenbank
    
    – Informationen zu den Bewertungsregeln
    ach so, das sagt EXPLAIN:
    
    1 PRIMARY test
    ALL NULL NULL NULL NULL 1000 Using where
    
    2 DEPENDENT SUBQUERY test
    index NULL id 20 NULL 1000 Using index
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
performance problem
Franz Z. 19.06.2009 21:45

datenbank
– Informationen zu den Bewertungsregeln
SELECT *
FROM test
WHERE id
IN (

SELECT id
FROM test
GROUP BY id
HAVING count( id ) >1
)

SELECT ID, COUNT(*) AS zaehler
FROM table
GROUP BY ID
HAVING zaehler > 1

Grüße, Franz Z.
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Schneider: performance problem