Hallo cn,
Es ist generell sehr schwierig, so was automatisch festzustellen, weil es einfach zu viele Möglichkeiten gibt.
Z.b. würdest du "forum.de.selfhtml.org" ohne ein http:// niemals als Link interpretieren können, da du nie sicher sein kannst, dass es sich bei dem Geschriebenen auch wirklich um eine URL handelt.
Ganz genau. Deswegen soll es dann ja auch in diesem Fall nur interpretiert werden, wenn ein http:// davor steht. Meine kleine "Erweiterung" war nur, auch etwas wie www.google.de zu erkennnen. Immerhin ist so ein "www." davor auch ziemlich .. naja, sagen wir mal es kommt oft vor ;-)
Das Thema geht übrigens schon sehr in Richtung AI, und läßt sich mit solch simplen Regular Expressions wie PCRE wohl kaum mehr machen.
Hmmm... Ja, wenn man den Script intelligent mitdenken lassen will, nicht... *schade* ;-) - warten wir einfach noch ein paar jährchen und bauen dann nen robotor an unseren server drank ;-)
Deshalb würde ich mir an deiner Stelle keine grauen Haare wegen einer "perfekten Erkennung" wachsen lassen und stattdessen lieber einfach ein RegExp wie das hier nutzen:
/((http://|ftp://|www.|ftp.)\S+?)\s/i
Alles ab dem Anfangskeywort bis zum nächsten Whitespace (Leerzeichen, Zeilenumbruch, etc) wird als URL-String interpretiert.
Übrigens enthält hier die 1. gematchte Gruppe den vollständigen URL-String, d.h. du kannst ihn später einfach abfragen.
Na das hätte ich ach noch auf die Reihe bekommen ;-)
na gut, mal sehen was sich machen lässt ;-)
WauWau
ss:) zu:) ls:& fo:) de:] va:) ch:° n4:( rl:( br:^ js:| ie:% fl:{ mo:|
E-Mail WauWau: [mailto:der-wauwau@gmx.de]