Stefan R. Mueller: Ergänzung

Beitrag lesen

Hi Stefan

Erkennen die bekannten Suchmaschinen nicht nur Entities,
sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?

viele Gruesse
  Stefan Muenz

Diese spitzen Klammern duerften Probleme beim Parsen
geben. Bei uns funktioniert das in etwa so:

  1. Loeschen aller Kommentare mit <!-- ... //--> und <! ... >
  2. Suchen des Groesserzeichens >
  3. davroliegendes Kleinerzeichen suchen <
  4. Tag herausschneiden und nach hrefs untersuchen
        (das ist fuer das ranking)
  5. Metatags interpretieren
        <meta name="xxx" content="yyy" language="zz">
  6. Eventuell noch Bildert, Applets, etc entdecken
        (machen wir fuer die alt-Angabe bei img)
  7. Titel etc. rausschneiden <title>...</title>
  8. Body heraustrennen <body>...</body>
  9. Erste Ueberschrift schnappen <h(n)> ... </h(n)>
  10. Alle Tags loeschen, der Rest ist Text eventuell
         fuer Volltextsuche

Aehnlich gehen andere HTML-Parser vor, manche verhalten
sich noch in Abhaengigkeit zu den Metainformationen, manche
nicht.

Einige schnappen sich sogar noch Javascript-Anweisungen, zb
sowas wie window.location.href, wieder andere pulen sich den
Refresh-Tag heraus, und nehmen dann solche Seiten gar nicht
erst an, sondern gleich die Umleitung.

Das macht sicherlich deutlich, dass vbei HTMl die spitzen
Klammern massgeblich fuer die Interpraetation sind. Mag sein,
dass irgendein robot sogar Schachtelungen interpretiert, etwa:

<meta name="keyword" content="<table>,<tr>,<td>,<th>">

dennoch sinnig ist das nicht, wenn auch fuer die indexierung deiner Seiten
das schon ideal waere.

Aber, Du hast ja die Moeglichkeit < und > zu nutzen. Bei
unserem robot hatte das die Wirkung, die Du dir wuenscht, da der
Vergleich zweier Ausdruecke zwischen einem "ö" und einem "ö"
nicht unterscheidet (wie gesagt, bei uns ist das so). Zudem hast Du
die Moeglichkeit, den Kram in den Titel zu schreiben, der geht in der
Prioritaet bei varianter Abstimmung eh vor den Metainfos. Als naechstes
haettst du noch die Überschrift.

Die spitzen klammern werden wohl auch in der Ausgabe bei den
meisten Suchmaschinen Probleme im HTML-Code machen. deshalb ist
das fuer die eh sinnig, Sonderzeichen wie "<" und ">" einfach zu
canceln. Zudem werden einige Suchmaschinen die Suchabfrage
auf Entities umstellen, so dass aus dem Suchwort "ö" schnell
"ö" wird.

Gruesse

Stefan R. Mueller / Blinde Kuh
ps.: Du brauchst mich nicht mit "ph" zu schreiben ;-)