Dieter Raber: utf-8 detection, danke und Zusatzfrage

Beitrag lesen

Erstmal vielen Dank fuer alle Antworten, da waren schon einige sehr brauchbare Sachen dabei.

Noch eine Zusatzfrage:
Auf welche Dateitypen kann man problemlos zugreifen, um den Text zu extrahieren. Ich habe bis jetzt html, odt, rtf, swx txt, xml, sowie einige ander Textformate. Auf doc und solche Sachen will ich eigentlich verzichten, da ist mir der Aufwand im Moment einfach zu gross. Mir geht es nur um solche Dokumente, die

  • in der Regel textuelle Information enthalten
  • mit PHP unter 'normalen Umstaenden' ziemlich einfach einzulesen sind.

Gruß,

Dieter

0 45

utf-8 detection

Dieter Raber
  • php
  1. 0
    Siechfred
    1. 0
      Tom
      1. 0
        Siechfred
        • menschelei
      2. 0
        Cybaer
        1. 0

          Gibt es eine utf-8 String-Klasse?

          Tom
          1. 0
            dedlfix
            1. 0
              Tom
              1. 0
                dedlfix
                1. 0
                  Tom
                  1. 0
                    Sven Rautenberg
                    1. 0
                      Tom
                  2. 0
                    dedlfix
                    1. 0
                      Tom
                      1. 0
                        dedlfix
                        1. 0
                          Tom
                          1. 0
                            Sven Rautenberg
                            1. 0
                              Tom
            2. 0
              Cybaer
              • meinung
              1. 0
                dedlfix
                1. 0

                  NORMIERUNG: Sackgasse oder Lösungsansatz?

                  Tom
                  • sonstiges
                  1. 0
                    dedlfix
                  2. 1
                    Sven Rautenberg
                    1. 0
                      Cybaer
                    2. 0

                      Wollte nicht kneifen, aber 1&1 hat "Späße" gemacht

                      Tom
                      1. 0
                        Sven Rautenberg
            3. 0
              Cybaer
              • meinung
          2. 0
            Cybaer
      3. 0
        Sven Rautenberg
        1. 0

          utf-8 Byteanzahl und Wahl des Zeichensatzes

          Tom
          1. 0
            Sven Rautenberg
            1. 0
              Tom
              1. 0
                Sven Rautenberg
                1. 0

                  Übersetzung Code -> Glyphe

                  Tom
                  1. 0
                    Sven Rautenberg
                  2. 0
                    Cybaer
                    1. 0
                      dedlfix
                      1. 0
                        Cybaer
                        • menschelei
  2. 0
    Christian Seiler
    1. 0
      Dieter Raber
  3. 0
    Tom
    1. 0
      dedlfix
  4. 0

    utf-8 detection, danke und Zusatzfrage

    Dieter Raber
    1. 0
      Tom
      1. 0
        Dieter Raber