Meldung im Firefox debugger unklar
bearbeitet von Der MartinHallo Selen,
grundsätzlich müsste man für einen ersten Anhangspunkt nach sowas wie
~~~
(^|[\x00-\x7f])[\x80-\xff](?=[\x00-\x7f]|$)
~~~
suchen. Nochmal zum Mitschreiben, etwas aufgespaced:
~~~
( ^ | [\x00-\x7f] )
[\x80-\xff]
(?= [\x00-\x7f] | $)
~~~
Zeile 1: Entweder Zeilenanfang (^) oder ein Zeichen von \x00 bis \x7f
Zeile 2: Ein Zeichen von \x80 bis \xff
Zeile 3: Nur gucken, nicht matchen (das ?= sorgt dafür): Entweder ein Zeichen von \x00 bis \x7f oder ein Zeilenende ($)
Das Suchtool muss dafür aber in einem single byte Zeichensatz operieren.
Ob's der TextCrawler kann, weiß ich nicht. Ich habe zum Probieren die "Suche in Dateien" Funktion von Notepad++ benutzt, das kennt PCRE Regexe.
Und im Notepad kannst Du die Datei dann auch gleich öffnen und umcodieren (Kodierungs-Menü, "Konvertiere zu UTF-8")
Webseiten UTF-8 kodiert auszuliefern ist grundsätzlich die richtige Idee. Aber wenn Du drölftausend Sourcen hast, diese alle ISO-8859-1 (oder -15) sind und dein Webserver so eingestellt ist, dass er einen Content-Type Header mit charset=UTF-8 ausliefert, könnte es einfacher sein, für den betreffenden Ordner den Content-Type Header per .htaccess Einstellung zu ändern (.htaccess = Apache, andere Webserver machen das anders).
Eine Batch-Umcodierung von ISO-8859-1 (oder -15) auf UTF-8 ist riskant, da muss man gut testen und die Quelle dreifach sichern, bevor man sowas startet.
_Rolf_
--
sumpsi - posui - obstruxi
Meldung im Firefox debugger unklar
bearbeitet von Rolf BHallo Selen,
grundsätzlich müsste man für einen ersten Anhangspunkt nach sowas wie
(^|[\x00-\x7f])[\x80-\xff](?=[\x00-\x7f]|$)
suchen. Das ist: Zeilenanfang oder Zeichen von \x00 bis \x7f, dann ein Zeichen \x80 bis \xff, dann prüfen (nicht matchen), ob ein Zeichen \x00-\x7f oder ein Zeilenende folgt.
Das Suchtool muss dafür aber in einem single byte Zeichensatz operieren.
Ob's der TextCrawler kann, weiß ich nicht. Ich habe zum Probieren die "Suche in Dateien" Funktion von Notepad++ benutzt, das kennt PCRE Regexe.
_Rolf_
--
sumpsi - posui - obstruxi