Umbrüche und Vorschübe in Seitenquellcode mit PHP erkennen von JochenT, 31.07.2011 18:50

Umbrüche und Vorschübe in Seitenquellcode mit PHP erkennen

JochenT 31.07.2011 18:50

Hallo
ich arbeite momentan an einem Script mit dem ich bestimmte Inhalte aus dem Quellcode einer Website parsen und anzeigen möchte.
Mein Problem dabei ist, dass teilweise Zeilenumbrüche und Tab-Vorschübe im Quellcode sind, von denen ich nicht weiß, wie ich sie beim Analysieren berücksichtigen kann.

Ein Beispiel dafür könnte so aussehen:

<div>
Text1<br/>
<br/>
</div>
Text2

Den Code lese ich - einfach beschrieben - folgendermaßen aus:

  
$code = file_get_contents("http://www.beispiel.com");  
echo htmlspecialchars($code);

Als Test lasse ich mir nun einmal den Code anzeigen und sehe, dass der HTML code von oben dann etwa so aussieht: <div> Text1<br/> <br/> </div> Text2.

Wenn ich jetzt beim Parsen beispielsweise eine Stelle suche an der 2 <br/> Tags aufeinanderfolgen funktioniert das scheinbar nicht so ohne weiteres. Eine Suche nach "<br/> <br/>" bleibt ohne Ergebnis, da hinter dem ersten <br/> ja zunächst ein Umbruch und danach noch ein Vorschub erfolgt.

Meine Frage auf den Punkt gebracht also: Wie kann ich in so einem Beispiel die Umbrüche und Vorschübe beim Durchsuchen des Textes erkennen?

Beitrag melden

– Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

JochenT: Umbrüche und Vorschübe in Seitenquellcode mit PHP erkennen

Beitrag lesen

Umbrüche und Vorschübe in Seitenquellcode mit PHP erkennen

Umbrüche und Vorschübe in Seitenquellcode mit PHP erkennen