Björn Höhrmann: Liste nicht erlaubter sonderzeichen?

Beitrag lesen

Um einen externen Datenlieferant anweisen zu können, sonderzeichen aus einer XML Datei herauszufiltern, suche ich verzweifelt eine liste (vorzugsweise von w3) in welcher alle zeichen drinne stehen die nicht in den tags enthalten sein dürfen. so z.B. <>

Was meinst du mit "in den Tags"? Als Elementinhalt? In Attributwerten? Elementnamen? Textknoten? In http://www.w3.org/TR/REC-xml findest du eine Positivliste, sprich, wo welche Zeichen erlaubt sind. Prinzipiell für Element- und Attributinhalt wäre das

Char  ::=  #x9 | #xA | #xD | [#x20-#xD7FF] |
            [#xE000-#xFFFD] | [#x10000-#x10FFFF]

Es sind also nur sehr wenige Zeichen nicht zulässig. Wenn du Zeichen mit besonderer Bedeutung meinst, ist die Liste sehr kurz. Literal darf nicht vorkommen:

<
  &
  ]]>
  ' in '-begrenzten Attributwerten
  " in "-begrenzten Attributwerten

Das war es dann aber auch schon. Die Zeichenketten dürfen maskiert selbstverständlich vorkommen.