Philipp Hasenfratz: Aufzählungen von Begriffen

Beitrag lesen

Halihallo praetor

  1. Hast du noch einige Beispiele (mir ist noch immer nicht ganz klar, wie die Datenstruktur aufgebaut ist; z. B. wie werden Gesetzesbücher mit den Paragraphen in Verbindung gesetzt)?

Diese Aufzählungen können, wie gesagt, sehr lang und umständlich sein (siehe Beispiel). Und ich habe Probleme, daß mit meiner bisher verwendeten Syntax zu erschlagen. Ja, am Ende soll die XML-Datei natürlich mittels eines ebenfalls bereits vorhandenen Skriptes in HTML umgewandelt. Ein noch unvollendetes Beispiel läßt sich unter www.praetor.de bestaunen (oder belächeln, je nach dem ...)

Ich finde dein Projekt sehr interessant! - Nur immer weiter...

Hm. Der Datentype für den Input ist ja alles andere, als Computerfreundlich... Warum können die vom W3C nicht mal eine Mensch-Computer-Sprache entwickeln, die sich gleichermassen von Menschen, wie auch vom Computer lesen lassen? :-)

<snip>
eine Wertpapierfälschung (§§ 146, 151, 152) oder eine Fälschung von Zahlungskarten und Vordrucken für Euroschecks (§ 152a des Strafgesetzbuches),
</snip>

Hm. Hier stellt sich mir auch noch die Frage, wie diese "relevanten" Teststellen überhaupt aus dem Input-Stream ausgefiltert werden können. Hast du hierbei schon etwas gemacht?
Und soll "§ 152a des Strafgesetzbuches" etwa transformiert werden, eg. in "§§ 152a StGB" oder so, dass es nachher weitertransformiert werden kann, sodass ein Link in die XML geschrieben wird?
Ich denke, dass du keinen manuellen Aufwand betreiben willst, oder?

Hast du eine allgemeine Definition von "Ende der Paragraphenaufzählung" gefunden? - Der Anfang wird ja mit '§§' gebildet.

Allgemein musst du hier wohl ein rekursives Verfahren anwenden, dass

  1. den Text einliest
  2. Paragraphendefinitionen aus dem Input-Stream entfernt, bzw. bearbeitet
  3. Paragraphendefinitionen analysiert/parsed
  4. und diese dann als <link> in die XML schreibt bzw. wieder in den Input-Stream an der richtigen Stelle verschiebt.

Möglichkeit zur Paragraphenextraktion:
Nach §§ suchen. Dann den Input-Stream wort-für-wort zu testen, bis kein [n] bzw. Stoppword mehr vorkommt...

Die Stoppwords sind hierbei etwa folgende:
' '
'und'
'oder'
','
'.'
'Strafgesetzbuch'
'StGB'
...

falls eine Zeichenkette eine Zahl ist, wird diese (da in einer Paragraphenaufzählung) in einen <link...> transformiert. Falls keines der Stoppwords auftaucht, bzw, keine auch keine Zahl zwischen Stoppwords, dann wird ein Flag "normaler-text" gesetzt, was bedeutet, dass keine Transformationen stattfinden. Die Stoppwords werden natürlich auch wieder in den Input-Stream (bzw. den Output-Stream) eingefügt.

Vielleicht ist das ein neuer Input.

Viele Grüsse

Philipp