C2A0 und split erledigt von pl, 11.02.2017 21:57

SELF-Forum

C2A0 und split

pl Homepage des Autors 11.02.2017 17:00

perl
regex

– Informationen zu den Bewertungsregeln

Hi,

ist es möglich, für /\s+/ eine Voreinstellung zu treffen, dass das auch für NonBreakingSpaces (C2A0) matcht?

MfG

Beitrag melden

– Informationen zu den Bewertungsregeln

C2A0 und split erledigt
pl Homepage des Autors 11.02.2017 17:21

perl

regex
– Informationen zu den Bewertungsregeln
Hi,

ist es möglich, für /\s+/ eine Voreinstellung zu treffen, dass das auch für NonBreakingSpaces (C2A0) matcht?

MfG

PS/Edit: split /[\s\xC2\xA0]+/, $str zum Heften ;)
Beitrag melden

–
Informationen zu den Bewertungsregeln
1. C2A0 und split erledigt
  
  MudGuard Homepage des Autors 11.02.2017 18:03
  
  perl
  
  regex
  – Informationen zu den Bewertungsregeln
  Hi,
  
  ist es möglich, für /\s+/ eine Voreinstellung zu treffen, dass das auch für NonBreakingSpaces (C2A0) matcht? PS/Edit: split /[\s\xC2\xA0]+/, $str zum Heften ;)
  
  Bist Du sicher, daß die Lösung auch zum Problem paßt?
  
  Ich hätte eher /(?:\s|\xC2\xA0)+/ erwartet - Deine Konstruktion könnte auch das INVERTED EXCLAMATION MARK ¡ (Bytes C2 und A1) erwischen. Und alle anderen Bytefolgen, die C2 enthalten. Wenn's denn byteweise bearbeitet wird.
  
  Oder, da es sich wohl um Unicode handeln soll, /[\s\xA0]+/u
  
  cu,
  Andreas a/k/a MudGuard
  Beitrag melden
  
  –
  Informationen zu den Bewertungsregeln
  Übersicht
  
  alle Foren
  
  SELFHTML-Forum
  
  anmelden
  
  Benutzerkonto erstellen
  
  Beitrag im Thread-Baum
  1. C2A0 und split erledigt
    
    pl Homepage des Autors 11.02.2017 21:57
    
    perl
    
    regex
    
    – Informationen zu den Bewertungsregeln
    hi,
    
    wenn /u greifen soll, muss der String utf-8-kodiert vorliegen. Dann matcht der Codepoint 0xA0.
    
    Schönen Sonntag ;)
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum
    1. C2A0 und split erledigt
      
      MudGuard Homepage des Autors 11.02.2017 22:33
      
      perl
      
      regex
      
      – Informationen zu den Bewertungsregeln
      
      Hi,
      
      wenn /u greifen soll, muss der String utf-8-kodiert vorliegen. Dann matcht der Codepoint 0xA0.
      
      wenn das non-breaking space die Bytefolge C2 A0 hat, ist die Wahrscheinlichkeit, daß der String utf-8-codiert ist, ziemlich hoch …
      
      cu,
      Andreas a/k/a MudGuard
      
      Beitrag melden
      
      –
      Informationen zu den Bewertungsregeln
      
      Übersicht
      
      alle Foren
      
      SELFHTML-Forum
      
      anmelden
      
      Benutzerkonto erstellen
      
      Beitrag im Thread-Baum
      1. C2A0 und split erledigt
        
        pl Homepage des Autors 11.02.2017 22:46
        
        perl
        
        regex
        
        – Informationen zu den Bewertungsregeln
        
        wenn das non-breaking space die Bytefolge C2 A0 hat, ist die Wahrscheinlichkeit, daß der String utf-8-codiert ist, ziemlich hoch …
        
        Nein ;) Perl unterscheidet (seit v5.6 im Jahr 2001) intern zwischen Bytesequenzen (legacy) und kodierten Zeichenketten.
        
        MfG
        
        Beitrag melden
        
        –
        Informationen zu den Bewertungsregeln
        
        Übersicht
        
        alle Foren
        
        SELFHTML-Forum
        
        anmelden
        
        Benutzerkonto erstellen
        
        Beitrag im Thread-Baum
  2. C2A0 und split erledigt
    
    pl Homepage des Autors 12.02.2017 10:01
    
    perl
    
    regex
    
    – Informationen zu den Bewertungsregeln
    Bist Du sicher, daß die Lösung auch zum Problem paßt?
    
    Die Frage ist berechtigt. Nun, der zu splittende Text hat nur diese Zeichen [0-9:\.a-zA-Z] (Uhrzeiten, Zahlen und Funktionsnamen). Das Einzige was an NICHT-ASCII hinzukommt sind die NonBreakSpaces. Von daher darf sowohl an der gesamten Bytefolge C2A0 als auch auch an einzelnen Bytes C2, A0 oder A0, C2 gesplittet werden -- Das Ergebnis ist OK. Wenn man es ganz genau machen will:
    
    my $nbsp = pack "CC", 0xC2,0xA0; my @times = $self->trim($self->param('times')) ? split /[\s$nbsp]+/, # oder split /[^0-9:\.a-zA-Z]+/,
    
    Schön' Sonntag!
    Beitrag melden
    
    –
    Informationen zu den Bewertungsregeln
    
    Übersicht
    
    alle Foren
    
    SELFHTML-Forum
    
    anmelden
    
    Benutzerkonto erstellen
    
    Beitrag im Thread-Baum

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

pl: C2A0 und split

C2A0 und split

C2A0 und split erledigt

C2A0 und split

C2A0 und split erledigt

C2A0 und split erledigt

C2A0 und split erledigt

C2A0 und split erledigt

C2A0 und split erledigt

C2A0 und split erledigt