Riesige XMLs parsen? (1,5 GB) von e7, 13.06.2006 16:41

SELF-Forum

Riesige XMLs parsen? (1,5 GB)

lucky18 13.06.2006 12:00

– Informationen zu den Bewertungsregeln

Wie kann man wirklich riesige xml-files (1,5GB) parsen?

Sagt mir nicht dass das nicht sinnvoll ist, ich weiß es! aber ich muss trotzdem irgendeine lösung finden.

msxml dom parser haben wir nach 2,5 tagen laufzeit abgebrochen.

Was habt ihr für vorschläge??

lg Stefan

Beitrag melden

– Informationen zu den Bewertungsregeln

Riesige XMLs parsen? (1,5 GB)
Rouven 13.06.2006 12:02

xml
– Informationen zu den Bewertungsregeln
Hi,

Vorschläge - puh, schwer, das ist eine Menge Daten. Ich weiß nicht ob es dein Problem löst, das wird wohl auf die Implementierung des Parsers und deines Handlers ankommen, aber es könnte effizienter sein zu SAX zu wechseln, es sei denn du brauchst den DOM-Baum wirklich, dann wird's keinen Unterschied machen. Aber wenn dich andere Aspekte mehr interessieren oder nur Teile der Information, dann ist DOM der Overkill.

MfG
Rouven

--
-------------------
ie:| fl:| br:> va:| ls:& fo:) rl:( n4:{ ss:) de:] js:| ch:? mo:} zu:|
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. Riesige XMLs parsen? (1,5 GB)
  
  lucky18 13.06.2006 12:40
  
  xml
  – Informationen zu den Bewertungsregeln
  ja das dom nicht wirklich sinnvoll ist hab ich auch schon bemerkt.
  ich versuchs jetzt mal SAX da ich eigentlich nur aus dem xml lese und keine updates drauf mache. Wäre StAX auch eine alternative? aber damit kenn ich mich nicht aus!
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. Riesige XMLs parsen? (1,5 GB)
    
    Thomas J.S. 13.06.2006 13:07
    
    xml
    
    – Informationen zu den Bewertungsregeln
    Hallo,
    
    Wäre StAX auch eine alternative? aber damit kenn ich mich nicht aus!
    
    Wenn du wirklich nur lesen willst, wäre das durchaus in Erwägung zu ziehen.
    
    http://www.devx.com/Java/Article/30298 http://jcp.org/en/jsr/detail?id=173 (mit Links zu weiterführenden Dokumentation)
    
    Habt ihr beim MSXML auch den XmlReader versucht?:
    http://msdn.microsoft.com/library/en-us/cpref/html/frlrfsystemxmlxmlreaderclasstopic.asp
    
    Grüße
    Thomas
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
Riesige XMLs parsen? (1,5 GB)
Hans 13.06.2006 12:05

xml
– Informationen zu den Bewertungsregeln
Hi Stefan,

also, wie wäre es, wenn man das große XML-File in viele kleine XML-Files aufsplittet, jeweils so, daß eine komplette Struktur, die möglichst hoch in der Hierarchie steht, in einem File drin ist.

z.B.

<NODE1>
   <NODE2>
   ...
      <NODE99>
      </NODE99>
   ...
</NODE1>
<NODE1>
    <NODE2>
...

in Files ablegen, sodaß alles von <NODE1> bis </NODE1> in einem File abgelegt werden kann und dann dieses parsen.

Gruß

Hans
Beitrag melden

–
Informationen zu den Bewertungsregeln
Riesige XMLs parsen? (1,5 GB)
e7 Homepage des Autors 13.06.2006 16:41

xml
– Informationen zu den Bewertungsregeln
Wie kann man wirklich riesige xml-files (1,5GB) parsen?

Meinst du zufällig die Wikipedia-Datenbank?

Selbst wenn nicht, im MediaWiki gibt's ein Importscript zum Import der XML-Datei mit den ganzen Artikeln... Das läuft zwar auch seine zwei Tage, aber funktioniert...
Beitrag melden

–
Informationen zu den Bewertungsregeln
Riesige XMLs parsen? (1,5 GB)
Alexander Brock Homepage des Autors 13.06.2006 17:05

xml
– Informationen zu den Bewertungsregeln
Hallo Freunde des gehobenen Forumsgenusses,

Wie kann man wirklich riesige xml-files (1,5GB) parsen?

Beschreib mal was das für Daten sind, vielleicht musst du ja gar nicht alles auf einmal einlesen? Ich habe z.B. den RDF-Dump des DMOZ ausgelesen, der ist 2GB groß und ich habe sicher nie mehr als 100 KB Speicher verbraucht, ich hab ihn einfach zeilenweise eingelesen, die zeile verarbeitet und in eine Datenbank geschrieben.

Gruß
Alexander Brock

--

V-Text-Categorizer - Ein Klasse in PHP, die Text anhand von Statistiken über Texte in Kategorien sortiert (z.B. in Spam und nicht-Spam).
Beitrag melden

–
Informationen zu den Bewertungsregeln
Riesige XMLs parsen? (1,5 GB)
at 16.06.2006 10:31

xml
– Informationen zu den Bewertungsregeln
Hallo.

msxml dom parser haben wir nach 2,5 tagen laufzeit abgebrochen.

Was habt ihr für vorschläge??

Nicht abzubrechen?
MfG, at
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

lucky18: Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)

Riesige XMLs parsen? (1,5 GB)