Tach!
http://user:password@www.homepage.de:80/verz1/../verz%202/index.html#headline1
Sähe der Link so aus, ist meine Auswertung bis zum "#headline1" fertig.
Warum nimmst du keinen fertigen URL-Parser? Mindestens einer sollte auch in deiner Programmierumgebung verfügbar sein.
Meine Frage hier: Welche Zeichen hinter "index.html" kann ich erwarten?
Alle. Wenigstens im Fehlerfall. Der Aufbau von URLs(/URIs) ist bekannt und beschrieben. Wenn du einen Parser selbst bauen willst, solltest du auch die Spezifikation des Delinquenten lesen (können).
Bekannt ist mir "#" für eine Textmarke und "?" um eine Parameterübergabe an, z.B. ein cgi-Script einzuleiten. Welche Zeichen habe ich nun noch nicht berücksichtigt und für was sind sie dann gut?
Es kann auch mit / weitergehen. Das nennt sich dann PathInfo. Aber was PathInfo ist oder immer noch Path, weiß nur der Server, weil er dazu wissen muss, ob index.html zum Beispiel schon ein Script ist, an das er die Steuerung übergeben muss.
Gilt für die Parameterübergabe die gleiche Konvention bezüglich nicht erlaubter Zeichen wie bei der URL? Also "LEERZEICHEN" wird zu "%20"?
Alles ist URL. Es gibt aber Unterschiede für den Querystring und die Pfadangabe. Siehe PHPs Funktionen urlencode() vs. rawurlencode(). Davon ist vor allem das Leerzeichen betroffen, dass im Querystring eigentlich zu + werden muss.
dedlfix.