"versteckt" robots.txt keine einzelnen Dateien
Sebi Burkhard
Kann man mit robots.txt nur ganze Verzeichnisse vor den Suchmaschinen verstecken? Den wenn ich mit Disallow nur eine einzige Datei verstecken will, wird sie trotzdem in den Suchmaschinen aufgelistet.
Kann man mit robots.txt nur ganze Verzeichnisse vor den Suchmaschinen verstecken? Den wenn ich mit Disallow nur eine einzige Datei verstecken will, wird sie trotzdem in den Suchmaschinen aufgelistet.
die robot.txt diehnt nur dazu, Verzeichnisse
vor "guten" robots zu sperren. Boesen robots,
wie etwa unseren ;-) ist das schnuppe, was da
drin steht.
Um Dateien auszugrenzen mußt Du einen Meta-Tag in
die entsprechende HTML-Datei setzen:
<meta name="robots" content="noindex">
wenn der zudem nicht die Hyperlinks dieser Datei
verfolgen soll, dann
<meta name="robots" content="noindex,nofollow">
Aber, das haengt alles von dem robot ab, der das
lesen soll. Die meisten interessieren sich nicht
dafuer.
Sowas wie
<meta name="robots" content="no">
kann man knicken, oder
<meta name="robots" content="all">
ist ueberfluessig.
Guck mal hier bei WebCrawler, dort melden sich
ernsthafte robots an, und verraten, was sie wie
interpretieren:
The Web Robots Database http://info.webcrawler.com/mak/projects/robots/active.html
Dort findest Du z.B.: auch den der Blinden Kuh:
http://info.webcrawler.com/mak/projects/robots/active/html/blindekuh.html
Du mußt Dir natürlich die genau durchlesen, bei
denen Du überhaupt Seiten anmeldest.
Stefan Karzauninkat schrieb fuer SelfHTML
HTML und Suchmaschinen - Futter für die Robots
http://www.teamone.de/selfaktuell/htmlsuch.htm
Grüße
Stefan R. Müller
Stefan Karzauninkat schrieb fuer SelfHTML
HTML und Suchmaschinen - Futter für die Robots
http://www.teamone.de/selfaktuell/htmlsuch.htm
Hopsala, mir faellt auf, ich muss noch sagen,
warum ich das erwaehnte.
In diesem Beitrag schreibt Stefan Karzauninkat
Ein Grossteil der Webseiten sind richtig
grottenschlecht fuer robots zusammengeschrieben
worden, so dass eine Anmeldung in einer
Suchmaschine kaum etwas bringt.
Das kann man aber selbst ordentlich machen. Die
bedeutende Rolle spielen dabei die
Metainformationen in jeder einzelnen HTML-Datei.
Dabei sollte man nicht irgendwas einfach in die
Metainformationen schreiben, sondern sich schon
genau ueberlegen, wie die Suchmaschinen Prioritaten
setzen und WebSites indizieren.
Das wollte ich damit sagen.
Schoene Gruesse
Stefan R. Mueller
Hallo Stephan,
Ein Grossteil der Webseiten sind richtig
grottenschlecht fuer robots zusammengeschrieben
worden, so dass eine Anmeldung in einer
Suchmaschine kaum etwas bringt.
Gleich eine Frage dazu an die Suchmaschinenprofis: wenn ich moechte, dass HTML-Tags wie <html> oder <p> oder <applet codebase=> direkt ueber die Meta-Stichwoerter gefunden werden sollen - kann ich da einfach <html> usw. im Stichwortbereich notieren? Erkennen die bekannten Suchmaschinen nicht nur Entities, sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?
viele Gruesse
Stefan Muenz
Hi Stefan
Erkennen die bekannten Suchmaschinen nicht nur Entities,
sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?viele Gruesse
Stefan Muenz
Diese spitzen Klammern duerften Probleme beim Parsen
geben. Bei uns funktioniert das in etwa so:
Aehnlich gehen andere HTML-Parser vor, manche verhalten
sich noch in Abhaengigkeit zu den Metainformationen, manche
nicht.
Einige schnappen sich sogar noch Javascript-Anweisungen, zb
sowas wie window.location.href, wieder andere pulen sich den
Refresh-Tag heraus, und nehmen dann solche Seiten gar nicht
erst an, sondern gleich die Umleitung.
Das macht sicherlich deutlich, dass vbei HTMl die spitzen
Klammern massgeblich fuer die Interpraetation sind. Mag sein,
dass irgendein robot sogar Schachtelungen interpretiert, etwa:
<meta name="keyword" content="<table>,<tr>,<td>,<th>">
dennoch sinnig ist das nicht, wenn auch fuer die indexierung deiner Seiten
das schon ideal waere.
Aber, Du hast ja die Moeglichkeit < und > zu nutzen. Bei
unserem robot hatte das die Wirkung, die Du dir wuenscht, da der
Vergleich zweier Ausdruecke zwischen einem "ö" und einem "ö"
nicht unterscheidet (wie gesagt, bei uns ist das so). Zudem hast Du
die Moeglichkeit, den Kram in den Titel zu schreiben, der geht in der
Prioritaet bei varianter Abstimmung eh vor den Metainfos. Als naechstes
haettst du noch die Überschrift.
Die spitzen klammern werden wohl auch in der Ausgabe bei den
meisten Suchmaschinen Probleme im HTML-Code machen. deshalb ist
das fuer die eh sinnig, Sonderzeichen wie "<" und ">" einfach zu
canceln. Zudem werden einige Suchmaschinen die Suchabfrage
auf Entities umstellen, so dass aus dem Suchwort "ö" schnell
"ö" wird.
Gruesse
Stefan R. Mueller / Blinde Kuh
ps.: Du brauchst mich nicht mit "ph" zu schreiben ;-)
Hi Stefan
Gleich eine Frage dazu an die Suchmaschinenprofis: wenn ich moechte, dass HTML-Tags wie <html> oder
»» oder <applet codebase=> direkt ueber die Meta-Stichwoerter gefunden werden sollen - kann ich da einfach <html> usw. im Stichwortbereich notieren? Erkennen die bekannten Suchmaschinen nicht nur Entities, sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?
Abgesehen von den Parsing-Problemee, ueber die Stefan M. ja schon viel geschrieben hat, sind die meisten HTML-Tags in der Stopwortliste der Suchmaschinen (wenn nicht sogar alle). Die werden ignoriert, nach denen kann man nicht suchen, weil sie zu oft vorkommen. Die Interpretation innerhalb spitzer Klammern zum Ignorieren reicht nicht, da durch Syntaxfehler viele Codierungen im Text stehen. Zudem fangen die meisten Indexer erst bei 3 Zeichen an, viele Tags bleiben sowieso aussen vor.
Summasummarum macht es leider keinen Sinn, in den Metas HTLM tags aufzufuehren, obwohls inhaltlich in diesem Falle schon sinnvoll waere.
Auch auf Entities in den Metas würde ich verzichten, manche Robots interpretieren sie, andere zeigen die Codierung. Hin und wieder ein o statt nem ö ist leichter zu lesen als ausgeschriebene Entities mitten im Wort.
Viele Grüße Stefan
Hallo Stefan
Abgesehen von den Parsing-Problemee, ueber die Stefan M. ja schon viel geschrieben hat, sind die meisten HTML-Tags in der Stopwortliste der Suchmaschinen (wenn nicht sogar alle). Die werden ignoriert, nach denen kann man nicht suchen, weil sie zu oft vorkommen.
Es gibt da ein Missverstaendnis, weil hier im Forum Umschreibungen interpretiert werden. Ich meinte so was wie &_gt; und &_lt; (ohne den Unterstrich ;-)
Aber dann werde ich eben p, title, applet und wie sie alle heissen einfach so notieren, ohne spitze Klammern.
Und wie steht's mit anderen Sonderzeichen?
Beispiel Attribute:
<meta name="keywords" content="align=">
Geht so was?
Beispiel JavaScript-Methoden:
<meta name="keywords" content="window.open(),open()">
Geht so was?
Beispiel Perl-Variablen:
<meta name="keywords" content="$_,$'">
Geht so was?
Auch auf Entities in den Metas würde ich verzichten, manche Robots interpretieren sie, andere zeigen die Codierung. Hin und wieder ein o statt nem ö ist leichter zu lesen als ausgeschriebene Entities mitten im Wort.
Hmm, aber was ist denn, wenn der Anwender nach Düsenflugzeug sucht und nicht nach Duesenflugzeug oder Dusenflugzeug? Ich weiss, fuer die US-Robots sind das "Ferner-Liefen-Probleme", aber wenn sie "international" suchen, dann sollten sie zumindest iso-8859-1 plus HTML 3.2-Codierungen kennen.
Ich stelle diese Fragen auch deshalb mal, weil ich sie selber oft gestellt bekomme und mich eigentlich immer unbestimmt herausrede ("tja, die Robots sind da sehr unterschiedlich").
viele Gruesse
Stefan Muenz
Hmm, aber was ist denn, wenn der Anwender nach Düsenflugzeug sucht und nicht nach Duesenflugzeug oder Dusenflugzeug? Ich weiss, fuer die US-Robots sind das "Ferner-Liefen-Probleme", aber wenn sie "international" suchen, dann sollten sie zumindest iso-8859-1 plus HTML 3.2-Codierungen kennen.
Ich stelle diese Fragen auch deshalb mal, weil ich sie selber oft gestellt bekomme und mich eigentlich immer unbestimmt herausrede ("tja, die Robots sind da sehr unterschiedlich").
viele Gruesse
Stefan Muenz
Hi Stefan,
sorry, dass ich erst jetzt dazu etwas sage.
Es ist keine Ausrede, dass die robots, genauer deren Parsing
unterschiedlich ist, sondern eben Tatsache.
Bei den Duesenflugzeugen kann man sicherlich ein paar Ausnahmen
machen, wie etwa bei uns:
http://www.blinde-kuh.de/hilfe/eingabe.html
Allerdings hat die Fehlertoleranz auch ihre Grenzen, man findet dann
eben auch "aktüll" wenn da eigentlich "aktuell" steht, und leider,
ist jede Form der Fehlertoleranz recht aufwendig und servergefaehrdent,
es dauert einfach zu lange, um richtig intelligent zu wirken.
Wir haben zwar solche Dinge drin, die aus "Märchen" das
selbe machen wie "Maerchen" oder gar "Märchen", aber auch nur
deshalb, weil die Eingabe im nichtdeutschsprachigen Raum eigen-
artige Sonderzeichen hervorbringen kann, und auf mancher Tastatur
eben weit und breit kein "Ä" zu finden ist.
Die meisten Suchmaschinen erlauben keine Suche nach Zeichen,
die selbst bestandteil der logischen Verknüpfung sein koennten,
etwa bei regular-expressions von Perl. Dementsprechend ist
die Frage, welche sachen die Suchmaschinen wohl koennten,
die wichtigere. Gib in deinen Lieblingssuchmaschinen einfach
mal solche Ausdruecke ein, die aus Javascript, Perl oder sonstwas
stammen. Wirst sehen, die meisten lassen die Anfrage nicht zu,
so macht es bei denen auch keinen Sinn, da was an den Meta-
Infos herumzufriemeln.
Noch ein Wort zur Frage, warum sind die Suchmaschinen so,
bzw warum koennen die nicht alle das selbe, zumindest die
grundlegensten Sachen.
Zwei Punkte darf man dabei nicht vergessen. Erstens versuchen
die Suchmaschinen in erster Linie auf Namen zu regieren, also auf
nichtlogische Ausdruecke, seinen es Verben, Substantive oder
Eigennamen, etc. Zweitens gibt es keinerlei Richtlinien oder Absprachen
an denen sich Betreiber von Suchmaschinen halten muessten, die
wenigstens setzen sich vielleicht mal zu irgendwas zusammen. Es
gibt also kein Search3Consortium oder aehnliches. Nichteeinmal
verbindliche Massstaebe fuer die MetaTags oder das Ranking sind
vorhanden.
Ein ganz grosses Problem ist noch, dass es keinerlei Verhandlungs-
moeglichkeiten derzeit gibt, spezialisierte Datenbestaende optimal
zu indexieren. Alles ist auf allgemeine Suchmaschinen ausgerichtet,
also eher oberflaechlich.
Natuerlich werden einige Betreiber einfach irgendwann Realitaeten
schaffen, wovon PICs z.b.: einer ist, und DublinCore ein anderer.
Bis das alles mal zufriedenstellend ist, bleibt solchen Projekten wie
dem SelfHTML gar nichts anderes uebrig, als selbst eine Suchmaschine
im Netz zu haben, was ja auch schon der Fall ist, die eben solche
Optionen erlaubt. Aehnlich waere das bei anderen Themengleichen
Websites. Schmeist man die Datenbasen der verschiedensten Projekte
zum Thema HTML, Perl und was weiss ich zusammen, hat man eine
recht komnpetente Suchmaschine. Dieser Weg scheint mir sinniger,
als in den allgemeinen Suchmaschinen soviel herumzufriemeln und zu
tolerieren, bis sie am Ende gar nicht mehgr differenzieren koennen.
Allgemeine Suchmaschinen sollten beim Suchwort einfach nur
die entsprechenden spezialisierten Suchmaschinen mitauflisten,
damit man sich differenzierter auf die Suche machen kann. Nach
"P" oder "HTML and P" zu suchen, und damit 100% erfolgreich zu
sein, ist zwar vielleicht noch moeglich, aber meiner Meinung nach
nicht Sinn der allgemeinen Suchmaschinen.
Damit weiche ich hoffentlich nicht deiner Frage aus.
Schoene Gruesse
Stefan R. Mueller
Hallo Stefan,
Die meisten Suchmaschinen erlauben keine Suche nach Zeichen, die selbst bestandteil der logischen Verknüpfung sein koennten, etwa bei regular-expressions von Perl. Dementsprechend ist die Frage, welche sachen die Suchmaschinen wohl koennten, die wichtigere. Gib in deinen Lieblingssuchmaschinen einfach
mal solche Ausdruecke ein, die aus Javascript, Perl oder sonstwas stammen. Wirst sehen, die meisten lassen die Anfrage nicht zu, so macht es bei denen auch keinen Sinn, da was an den Meta-Infos herumzufriemeln.
Hmm, verdammt schade. Eben darum waere es sinnvoll, zumindest ein einziges Maskierungszeichen zuzulassen, wie es in Programmiersprachen etwa haeufig der Backslash ist. Aber nicht mal bis zu dieser einfachen Stufe scheint man sich einigen zu koennen.
Zweitens gibt es keinerlei Richtlinien oder Absprachen an denen sich Betreiber von Suchmaschinen halten muessten, die wenigstens setzen sich vielleicht mal zu irgendwas zusammen. Es gibt also kein Search3Consortium oder aehnliches. Nichteeinmal verbindliche Massstaebe fuer die MetaTags oder das Ranking sind vorhanden.
Warum ist das eigentlich so? Ich meine, jeder hat doch mittlerweile erkannt, dass die Suchmaschinen ein zentrales Mittel fuer die Produktivitaet bei der Internet-Recherche darstellen. Deshalb sollten sie genau so ernst genommen werden wie die Sprachen des Web - sprich, es sollte doch eigentlich nach Standardisierung geschrieen werden, oder nicht? Oder sind die etablierten Suchmaschinen so einflussreich, dass sie erfolgreich zu verhindern wissen, dass Standards entstehen, die sie selber in technische Verlegenheiten bringen koennten? Und warum nutzt eigentlich das W3-Konsortium seine Stellung nicht, um wenigstens HTML-seitig klipp und klar einen Kodex fuer Such-Indizierung festzulegen - sprich, ein schoen und sinnvoll sortiertes Set von verbindlichen Meta-Angaben in HTML zu verankern? Stattdessen nur zwei halbverbindliche Angaben (description und keywords), ansonsten Unverbindlichkeiten an der Stelle - Verweis auf Dublin Core, Pics und was weiss ich alles.
Bis das alles mal zufriedenstellend ist, bleibt solchen Projekten wie dem SelfHTML gar nichts anderes uebrig, als selbst eine Suchmaschine im Netz zu haben, was ja auch schon der Fall ist
Wenn man's erst mal gefunden hat - sicher. Aber man muss es ja erst mal finden. Und dazu gibt's eben die grossen, projektunabhaengigen Suchmaschinen.
viele Gruesse
Stefan Muenz
Hallo Stefan,
Die meisten Suchmaschinen erlauben keine Suche nach Zeichen, die selbst bestandteil der logischen Verknüpfung sein koennten, etwa bei regular-expressions von Perl. Dementsprechend ist die Frage, welche sachen die Suchmaschinen wohl koennten, die wichtigere. Gib in deinen Lieblingssuchmaschinen einfach
mal solche Ausdruecke ein, die aus Javascript, Perl oder sonstwas stammen. Wirst sehen, die meisten lassen die Anfrage nicht zu, so macht es bei denen auch keinen Sinn, da was an den Meta-Infos herumzufriemeln.Hmm, verdammt schade. Eben darum waere es sinnvoll, zumindest ein einziges Maskierungszeichen zuzulassen, wie es in Programmiersprachen etwa haeufig der Backslash ist. Aber nicht mal bis zu dieser einfachen Stufe scheint man sich einigen zu koennen.
Es gibt also kein Search3Consortium oder aehnliches. Nichteeinmal verbindliche Massstaebe fuer die MetaTags oder das Ranking sind vorhanden.
Warum ist das eigentlich so?
Naja, ganz ist es ja auch nicht so. Es gibt Anfaenge. Hier im deutschsprachigen
Raum hat der Stefan Karzauninkat eine Mailingliste eroeffnet, in der auch
ein paar Suchmaschinenbetreiber wie selbstverstaendlich die Blinde Kuh,
bejkanntlich der Stern am Suchmaschinenhimmel an-sich, und ein paar kleinere
wie Yahoo.de, Interseach, Eule, Nathan, MetaGer und Fireball. Ein paar der
hier im Forum Schreibenden sind in einer dieser Listen ebenfalls vorhanden.
»» Oder sind die etablierten Suchmaschinen so einflussreich, dass sie erfolgreich zu verhindern wissen, dass Standards entstehen, die sie selber in technische Verlegenheiten bringen koennten?
Na, was heisst etabliert? reicht nicht auch "klassiker"? ;-) Nein, keinem
tut es einen Abbruch mal die Koeppe zusammenzustecken. Ein kleiner,
oder auch groesserer Erfolg ist der gemeinsamme SpamIndex. Ein anderer
ist es auch, bestimmte Themen zu sensibilisieren, die man selbst vielleicht
auf die lange Bank geschoben haette. Nicht zu letzt muss es aber auch
mal sein, sich ueber etwas aufregen zu koennen, oder einfache Fragen
zu stellen, eben so wie hier.
Und warum nutzt eigentlich das W3-Konsortium seine Stellung nicht, um wenigstens HTML-seitig klipp und klar einen Kodex fuer Such-Indizierung festzulegen - sprich, ein schoen und sinnvoll sortiertes Set von verbindlichen Meta-Angaben in HTML zu verankern?
Ja, so einfach ist es aber am Ende gar nicht. nehmen wiir mal die Meta-Tags.
Suchmaschinen wie die Blinde Kuh oder andere spezialisierte Suchmaschinen
brauchen andere Metinformationen als zb die allgemeinen. Da geht das schon los.
Mit HTML4.0 kam zb ein neuer Masstab, naemlich die sprach-spezifische
Verschlagwortung. Andere Dinge sind wahrscheinlich Unsinn, etwa PICs. Aber,
das muss man auch mal sagen, das ganze betrifft nicht nur die fetten Such-
maschinen, sondern auch die kleinen, sogesehen finde ich das schon ganz
angenehm, wenn man von den leuten von Fireball, etc. trotzdem noch ernst
genommen wird, auch wenn man nicht 50 Mio Webseiten indiziert hat.
Bis das alles mal zufriedenstellend ist, bleibt solchen Projekten wie dem SelfHTML gar nichts anderes uebrig, als selbst eine Suchmaschine im Netz zu haben, was ja auch schon der Fall ist
Wenn man's erst mal gefunden hat - sicher. Aber man muss es ja erst mal finden. Und dazu gibt's eben die grossen, projektunabhaengigen Suchmaschinen.
Ja. Nur willst Du unter "p" mit aufgelistet werden, oder willst Du dass bei
"HTML" dein SelfHTML herausflutscht. Letzteres duerfte doch der Fall sein.
Allgemeine Suchmaschinen sollten gut sein, was allgemeine Begriffe betrifft,
und das waere im Web eben "HTML". Spezialisierte Suchmaschinen erst
fangen an, auch zwischen "td" und "th" fundiert zu differenzieren.
Ich denke, wenn Du auch noch forderst, dass saemtliche Datenbanken,
also auch sowas wie der Libri-Katalog, das Telefonbuch etc. wird es einfach
zu unuebersichtlich. Statt nun alles in einen Topf zu werfen, sind die
Betreiber dazu uebergegangen die beliebten alten verzeichnisse wieder-
zuentdecken und nageln gleich neben dem Suchschlitz alles zu den
beliebten Themen. zB SelfHTML bei Fireball
Guides/Internet/Webbastler
und da ist dann das HTML-Kompendium
Das A & O einer jeden Website: die Hyper Text
Markup Language. Stefan Münz spricht sie perfekt
gruesse
Stefan R. Mueller