Sebi Burkhard: "versteckt" robots.txt keine einzelnen Dateien

Kann man mit robots.txt nur ganze Verzeichnisse vor den Suchmaschinen verstecken? Den wenn ich mit Disallow nur eine einzige Datei verstecken will, wird sie trotzdem in den Suchmaschinen aufgelistet.

  1. Kann man mit robots.txt nur ganze Verzeichnisse vor den Suchmaschinen verstecken? Den wenn ich mit Disallow nur eine einzige Datei verstecken will, wird sie trotzdem in den Suchmaschinen aufgelistet.

    die robot.txt diehnt nur dazu, Verzeichnisse
    vor "guten" robots zu sperren. Boesen robots,
    wie etwa unseren ;-) ist das schnuppe, was da
    drin steht.

    Um Dateien auszugrenzen mußt Du einen Meta-Tag in
    die entsprechende HTML-Datei setzen:

    <meta name="robots" content="noindex">

    wenn der zudem nicht die Hyperlinks dieser Datei
    verfolgen soll, dann

    <meta name="robots" content="noindex,nofollow">

    Aber, das haengt alles von dem robot ab, der das
    lesen soll. Die meisten interessieren sich nicht
    dafuer.

    Sowas wie

    <meta name="robots" content="no">

    kann man knicken, oder

    <meta name="robots" content="all">

    ist ueberfluessig.

    Guck mal hier bei WebCrawler, dort melden sich
    ernsthafte robots an, und verraten, was sie wie
    interpretieren:

    The Web Robots Database http://info.webcrawler.com/mak/projects/robots/active.html

    Dort findest Du z.B.: auch den der Blinden Kuh:
    http://info.webcrawler.com/mak/projects/robots/active/html/blindekuh.html

    Du mußt Dir natürlich die genau durchlesen, bei
    denen Du überhaupt Seiten anmeldest.

    Stefan Karzauninkat schrieb fuer SelfHTML
    HTML und Suchmaschinen - Futter für die Robots
    http://www.teamone.de/selfaktuell/htmlsuch.htm

    Grüße

    Stefan R. Müller

    1. Stefan Karzauninkat schrieb fuer SelfHTML
      HTML und Suchmaschinen - Futter für die Robots
      http://www.teamone.de/selfaktuell/htmlsuch.htm

      Hopsala, mir faellt auf, ich muss noch sagen,
      warum ich das erwaehnte.

      In diesem Beitrag schreibt Stefan Karzauninkat

      • wie die Ueberschrift ja auch verraet - das
        etwas getan werden muss, damit robots die schoenen
        Webseiten auch lesen koennen.

      Ein Grossteil der Webseiten sind richtig
      grottenschlecht fuer robots zusammengeschrieben
      worden, so dass eine Anmeldung in einer
      Suchmaschine kaum etwas bringt.

      Das kann man aber selbst ordentlich machen. Die
      bedeutende Rolle spielen dabei die
      Metainformationen in jeder einzelnen HTML-Datei.
      Dabei sollte man nicht irgendwas einfach in die
      Metainformationen schreiben, sondern sich schon
      genau ueberlegen, wie die Suchmaschinen Prioritaten
      setzen und WebSites indizieren.

      Das wollte ich damit sagen.

      Schoene Gruesse

      Stefan R. Mueller

      1. Hallo Stephan,

        Ein Grossteil der Webseiten sind richtig
        grottenschlecht fuer robots zusammengeschrieben
        worden, so dass eine Anmeldung in einer
        Suchmaschine kaum etwas bringt.

        Gleich eine Frage dazu an die Suchmaschinenprofis: wenn ich moechte, dass HTML-Tags wie <html> oder <p> oder <applet codebase=> direkt ueber die Meta-Stichwoerter gefunden werden sollen - kann ich da einfach <html> usw. im Stichwortbereich notieren? Erkennen die bekannten Suchmaschinen nicht nur Entities, sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?

        viele Gruesse
          Stefan Muenz

        1. Hi Stefan

          Erkennen die bekannten Suchmaschinen nicht nur Entities,
          sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?

          viele Gruesse
            Stefan Muenz

          Diese spitzen Klammern duerften Probleme beim Parsen
          geben. Bei uns funktioniert das in etwa so:

          1. Loeschen aller Kommentare mit <!-- ... //--> und <! ... >
          2. Suchen des Groesserzeichens >
          3. davroliegendes Kleinerzeichen suchen <
          4. Tag herausschneiden und nach hrefs untersuchen
                (das ist fuer das ranking)
          5. Metatags interpretieren
                <meta name="xxx" content="yyy" language="zz">
          6. Eventuell noch Bildert, Applets, etc entdecken
                (machen wir fuer die alt-Angabe bei img)
          7. Titel etc. rausschneiden <title>...</title>
          8. Body heraustrennen <body>...</body>
          9. Erste Ueberschrift schnappen <h(n)> ... </h(n)>
          10. Alle Tags loeschen, der Rest ist Text eventuell
                 fuer Volltextsuche

          Aehnlich gehen andere HTML-Parser vor, manche verhalten
          sich noch in Abhaengigkeit zu den Metainformationen, manche
          nicht.

          Einige schnappen sich sogar noch Javascript-Anweisungen, zb
          sowas wie window.location.href, wieder andere pulen sich den
          Refresh-Tag heraus, und nehmen dann solche Seiten gar nicht
          erst an, sondern gleich die Umleitung.

          Das macht sicherlich deutlich, dass vbei HTMl die spitzen
          Klammern massgeblich fuer die Interpraetation sind. Mag sein,
          dass irgendein robot sogar Schachtelungen interpretiert, etwa:

          <meta name="keyword" content="<table>,<tr>,<td>,<th>">

          dennoch sinnig ist das nicht, wenn auch fuer die indexierung deiner Seiten
          das schon ideal waere.

          Aber, Du hast ja die Moeglichkeit < und > zu nutzen. Bei
          unserem robot hatte das die Wirkung, die Du dir wuenscht, da der
          Vergleich zweier Ausdruecke zwischen einem "ö" und einem "ö"
          nicht unterscheidet (wie gesagt, bei uns ist das so). Zudem hast Du
          die Moeglichkeit, den Kram in den Titel zu schreiben, der geht in der
          Prioritaet bei varianter Abstimmung eh vor den Metainfos. Als naechstes
          haettst du noch die Überschrift.

          Die spitzen klammern werden wohl auch in der Ausgabe bei den
          meisten Suchmaschinen Probleme im HTML-Code machen. deshalb ist
          das fuer die eh sinnig, Sonderzeichen wie "<" und ">" einfach zu
          canceln. Zudem werden einige Suchmaschinen die Suchabfrage
          auf Entities umstellen, so dass aus dem Suchwort "ö" schnell
          "ö" wird.

          Gruesse

          Stefan R. Mueller / Blinde Kuh
          ps.: Du brauchst mich nicht mit "ph" zu schreiben ;-)

        2. Hi Stefan

          Gleich eine Frage dazu an die Suchmaschinenprofis: wenn ich moechte, dass HTML-Tags wie <html> oder

          »»  oder <applet codebase=> direkt ueber die Meta-Stichwoerter gefunden werden sollen - kann ich da einfach <html> usw. im Stichwortbereich notieren? Erkennen die bekannten Suchmaschinen nicht nur Entities, sondern auch Umschreibungen HTML-eigener Sonderzeichen (< > " &)?

          Abgesehen von den Parsing-Problemee, ueber die Stefan M. ja schon viel geschrieben hat, sind die meisten HTML-Tags in der Stopwortliste der Suchmaschinen (wenn nicht sogar alle). Die werden ignoriert, nach denen kann man nicht suchen, weil sie zu oft vorkommen. Die Interpretation innerhalb spitzer Klammern zum Ignorieren reicht nicht, da durch Syntaxfehler viele Codierungen im Text stehen. Zudem fangen die meisten Indexer erst bei 3 Zeichen an, viele Tags bleiben sowieso aussen vor.
          Summasummarum macht es leider keinen Sinn, in den Metas HTLM tags aufzufuehren, obwohls inhaltlich in diesem Falle schon sinnvoll waere.

          Auch auf Entities in den Metas würde ich verzichten, manche Robots interpretieren sie, andere zeigen die Codierung. Hin und wieder ein o statt nem ö ist leichter zu lesen als ausgeschriebene Entities mitten im Wort.

          Viele Grüße Stefan

          1. Hallo Stefan

            Abgesehen von den Parsing-Problemee, ueber die Stefan M. ja schon viel geschrieben hat, sind die meisten HTML-Tags in der Stopwortliste der Suchmaschinen (wenn nicht sogar alle). Die werden ignoriert, nach denen kann man nicht suchen, weil sie zu oft vorkommen.

            Es gibt da ein Missverstaendnis, weil hier im Forum Umschreibungen interpretiert werden. Ich meinte so was wie &_gt; und &_lt; (ohne den Unterstrich ;-)
            Aber dann werde ich eben p, title, applet und wie sie alle heissen einfach so notieren, ohne spitze Klammern.

            Und wie steht's mit anderen Sonderzeichen?
            Beispiel Attribute:
            <meta name="keywords" content="align=">
            Geht so was?
            Beispiel JavaScript-Methoden:
            <meta name="keywords" content="window.open(),open()">
            Geht so was?
            Beispiel Perl-Variablen:
            <meta name="keywords" content="$_,$'">
            Geht so was?

            Auch auf Entities in den Metas würde ich verzichten, manche Robots interpretieren sie, andere zeigen die Codierung. Hin und wieder ein o statt nem ö ist leichter zu lesen als ausgeschriebene Entities mitten im Wort.

            Hmm, aber was ist denn, wenn der Anwender nach Düsenflugzeug sucht und nicht nach Duesenflugzeug oder Dusenflugzeug? Ich weiss, fuer die US-Robots sind das "Ferner-Liefen-Probleme", aber wenn sie "international" suchen, dann sollten sie zumindest iso-8859-1 plus HTML 3.2-Codierungen kennen.

            Ich stelle diese Fragen auch deshalb mal, weil ich sie selber oft gestellt bekomme und mich eigentlich immer unbestimmt herausrede ("tja, die Robots sind da sehr unterschiedlich").

            viele Gruesse
              Stefan Muenz

            1. Hmm, aber was ist denn, wenn der Anwender nach Düsenflugzeug sucht und nicht nach Duesenflugzeug oder Dusenflugzeug? Ich weiss, fuer die US-Robots sind das "Ferner-Liefen-Probleme", aber wenn sie "international" suchen, dann sollten sie zumindest iso-8859-1 plus HTML 3.2-Codierungen kennen.

              Ich stelle diese Fragen auch deshalb mal, weil ich sie selber oft gestellt bekomme und mich eigentlich immer unbestimmt herausrede ("tja, die Robots sind da sehr unterschiedlich").

              viele Gruesse
                Stefan Muenz

              Hi Stefan,
              sorry, dass ich erst jetzt dazu etwas sage.

              Es ist keine Ausrede, dass die robots, genauer deren Parsing
              unterschiedlich ist, sondern eben Tatsache.

              Bei den Duesenflugzeugen kann man sicherlich ein paar Ausnahmen
              machen, wie etwa bei uns:
              http://www.blinde-kuh.de/hilfe/eingabe.html

              Allerdings hat die Fehlertoleranz auch ihre Grenzen, man findet dann
              eben auch "aktüll" wenn da eigentlich "aktuell" steht, und leider,
              ist jede Form der Fehlertoleranz recht aufwendig und servergefaehrdent,
              es dauert einfach zu lange, um richtig intelligent zu wirken.

              Wir haben zwar solche Dinge drin, die aus "Märchen" das
              selbe machen wie "Maerchen" oder gar "Märchen", aber auch nur
              deshalb, weil die Eingabe im nichtdeutschsprachigen Raum eigen-
              artige Sonderzeichen hervorbringen kann, und auf mancher Tastatur
              eben weit und breit kein "Ä" zu finden ist.

              Die meisten Suchmaschinen erlauben keine Suche nach Zeichen,
              die selbst bestandteil der logischen Verknüpfung sein koennten,
              etwa bei regular-expressions von Perl. Dementsprechend ist
              die Frage, welche sachen die Suchmaschinen wohl koennten,
              die wichtigere. Gib in deinen Lieblingssuchmaschinen einfach
              mal solche Ausdruecke ein, die aus Javascript, Perl oder sonstwas
              stammen. Wirst sehen, die meisten lassen die Anfrage nicht zu,
              so macht es bei denen auch keinen Sinn, da was an den Meta-
              Infos herumzufriemeln.

              Noch ein Wort zur Frage, warum sind die Suchmaschinen so,
              bzw warum koennen die nicht alle das selbe, zumindest die
              grundlegensten Sachen.

              Zwei Punkte darf man dabei nicht vergessen. Erstens versuchen
              die Suchmaschinen in erster Linie auf Namen zu regieren, also auf
              nichtlogische Ausdruecke, seinen es Verben, Substantive oder
              Eigennamen, etc. Zweitens gibt es keinerlei Richtlinien oder Absprachen
              an denen sich Betreiber von Suchmaschinen halten muessten, die
              wenigstens setzen sich vielleicht mal zu irgendwas zusammen. Es
              gibt also kein Search3Consortium oder aehnliches. Nichteeinmal
              verbindliche Massstaebe fuer die MetaTags oder das Ranking sind
              vorhanden.

              Ein ganz grosses Problem ist noch, dass es keinerlei Verhandlungs-
              moeglichkeiten derzeit gibt, spezialisierte Datenbestaende optimal
              zu indexieren. Alles ist auf allgemeine Suchmaschinen ausgerichtet,
              also eher oberflaechlich.

              Natuerlich werden einige Betreiber einfach irgendwann Realitaeten
              schaffen, wovon PICs z.b.: einer ist, und DublinCore ein anderer.

              Bis das alles mal zufriedenstellend ist, bleibt solchen Projekten wie
              dem SelfHTML gar nichts anderes uebrig, als selbst eine Suchmaschine
              im Netz zu haben, was ja auch schon der Fall ist, die eben solche
              Optionen erlaubt. Aehnlich waere das bei anderen Themengleichen
              Websites. Schmeist man die Datenbasen der verschiedensten Projekte
              zum Thema HTML, Perl und was weiss ich zusammen, hat man eine
              recht komnpetente Suchmaschine. Dieser Weg scheint mir sinniger,
              als in den allgemeinen Suchmaschinen soviel herumzufriemeln und zu
              tolerieren, bis sie am Ende gar nicht mehgr differenzieren koennen.

              Allgemeine Suchmaschinen sollten beim Suchwort einfach nur
              die entsprechenden spezialisierten Suchmaschinen mitauflisten,
              damit man sich differenzierter auf die Suche machen kann. Nach
              "P" oder "HTML and P" zu suchen, und damit 100% erfolgreich zu
              sein, ist zwar vielleicht noch moeglich, aber meiner Meinung nach
              nicht Sinn der allgemeinen Suchmaschinen.

              Damit weiche ich hoffentlich nicht deiner Frage aus.

              Schoene Gruesse

              Stefan R. Mueller

              1. Hallo Stefan,

                Die meisten Suchmaschinen erlauben keine Suche nach Zeichen, die selbst bestandteil der logischen Verknüpfung sein koennten, etwa bei regular-expressions von Perl. Dementsprechend ist die Frage, welche sachen die Suchmaschinen wohl koennten, die wichtigere. Gib in deinen Lieblingssuchmaschinen einfach
                mal solche Ausdruecke ein, die aus Javascript, Perl oder sonstwas stammen. Wirst sehen, die meisten lassen die Anfrage nicht zu, so macht es bei denen auch keinen Sinn, da was an den Meta-Infos herumzufriemeln.

                Hmm, verdammt schade. Eben darum waere es sinnvoll, zumindest ein einziges Maskierungszeichen zuzulassen, wie es in Programmiersprachen etwa haeufig der Backslash ist. Aber nicht mal bis zu dieser einfachen Stufe scheint man sich einigen zu koennen.

                Zweitens gibt es keinerlei Richtlinien oder Absprachen an denen sich Betreiber von Suchmaschinen halten muessten, die wenigstens setzen sich vielleicht mal zu irgendwas zusammen. Es gibt also kein Search3Consortium oder aehnliches. Nichteeinmal verbindliche Massstaebe fuer die MetaTags oder das Ranking sind vorhanden.

                Warum ist das eigentlich so? Ich meine, jeder hat doch mittlerweile erkannt, dass die Suchmaschinen ein zentrales Mittel fuer die Produktivitaet bei der Internet-Recherche darstellen. Deshalb sollten sie genau so ernst genommen werden wie die Sprachen des Web - sprich, es sollte doch eigentlich nach Standardisierung geschrieen werden, oder nicht? Oder sind die etablierten Suchmaschinen so einflussreich, dass sie erfolgreich zu verhindern wissen, dass Standards entstehen, die sie selber in technische Verlegenheiten bringen koennten? Und warum nutzt eigentlich das W3-Konsortium seine Stellung nicht, um wenigstens HTML-seitig klipp und klar einen Kodex fuer Such-Indizierung festzulegen - sprich, ein schoen und sinnvoll sortiertes Set von verbindlichen Meta-Angaben in HTML zu verankern? Stattdessen nur zwei halbverbindliche Angaben (description und keywords), ansonsten Unverbindlichkeiten an der Stelle - Verweis auf Dublin Core, Pics und was weiss ich alles.

                Bis das alles mal zufriedenstellend ist, bleibt solchen Projekten wie dem SelfHTML gar nichts anderes uebrig, als selbst eine Suchmaschine im Netz zu haben, was ja auch schon der Fall ist

                Wenn man's erst mal gefunden hat - sicher. Aber man muss es ja erst mal finden. Und dazu gibt's eben die grossen, projektunabhaengigen Suchmaschinen.

                viele Gruesse
                  Stefan Muenz

                1. Hallo Stefan,

                  Die meisten Suchmaschinen erlauben keine Suche nach Zeichen, die selbst bestandteil der logischen Verknüpfung sein koennten, etwa bei regular-expressions von Perl. Dementsprechend ist die Frage, welche sachen die Suchmaschinen wohl koennten, die wichtigere. Gib in deinen Lieblingssuchmaschinen einfach
                  mal solche Ausdruecke ein, die aus Javascript, Perl oder sonstwas stammen. Wirst sehen, die meisten lassen die Anfrage nicht zu, so macht es bei denen auch keinen Sinn, da was an den Meta-Infos herumzufriemeln.

                  Hmm, verdammt schade. Eben darum waere es sinnvoll, zumindest ein einziges Maskierungszeichen zuzulassen, wie es in Programmiersprachen etwa haeufig der Backslash ist. Aber nicht mal bis zu dieser einfachen Stufe scheint man sich einigen zu koennen.

                  Es gibt also kein Search3Consortium oder aehnliches. Nichteeinmal verbindliche Massstaebe fuer die MetaTags oder das Ranking sind vorhanden.

                  Warum ist das eigentlich so?

                  Naja, ganz ist es ja auch nicht so. Es gibt Anfaenge. Hier im deutschsprachigen
                  Raum hat der Stefan Karzauninkat eine Mailingliste eroeffnet, in der auch
                  ein paar Suchmaschinenbetreiber wie selbstverstaendlich die Blinde Kuh,
                  bejkanntlich der Stern am Suchmaschinenhimmel an-sich, und ein paar kleinere
                  wie Yahoo.de, Interseach, Eule, Nathan, MetaGer und Fireball. Ein paar der
                  hier im Forum Schreibenden sind in einer dieser Listen ebenfalls vorhanden.

                  »»  Oder sind die etablierten Suchmaschinen so einflussreich, dass sie erfolgreich zu verhindern wissen, dass Standards entstehen, die sie selber in technische Verlegenheiten bringen koennten?

                  Na, was heisst etabliert? reicht nicht auch "klassiker"? ;-) Nein, keinem
                  tut es einen Abbruch mal die Koeppe zusammenzustecken. Ein kleiner,
                  oder auch groesserer Erfolg ist der gemeinsamme SpamIndex. Ein anderer
                  ist es auch, bestimmte Themen zu sensibilisieren, die man selbst vielleicht
                  auf die lange Bank geschoben haette. Nicht zu letzt muss es aber auch
                  mal sein, sich ueber etwas aufregen zu koennen, oder einfache Fragen
                  zu stellen, eben so wie hier.

                  Und warum nutzt eigentlich das W3-Konsortium seine Stellung nicht, um wenigstens HTML-seitig klipp und klar einen Kodex fuer Such-Indizierung festzulegen - sprich, ein schoen und sinnvoll sortiertes Set von verbindlichen Meta-Angaben in HTML zu verankern?

                  Ja, so einfach ist es aber am Ende gar nicht. nehmen wiir mal die Meta-Tags.
                  Suchmaschinen wie die Blinde Kuh oder andere spezialisierte Suchmaschinen
                  brauchen andere Metinformationen als zb die allgemeinen. Da geht das schon los.
                  Mit HTML4.0 kam zb ein neuer Masstab, naemlich die sprach-spezifische
                  Verschlagwortung. Andere Dinge sind wahrscheinlich Unsinn, etwa PICs. Aber,
                  das muss man auch mal sagen, das ganze betrifft nicht nur die fetten Such-
                  maschinen, sondern auch die kleinen, sogesehen finde ich das schon ganz
                  angenehm, wenn man von den leuten von Fireball, etc. trotzdem noch ernst
                  genommen wird, auch wenn man nicht 50 Mio Webseiten indiziert hat.

                  Bis das alles mal zufriedenstellend ist, bleibt solchen Projekten wie dem SelfHTML gar nichts anderes uebrig, als selbst eine Suchmaschine im Netz zu haben, was ja auch schon der Fall ist

                  Wenn man's erst mal gefunden hat - sicher. Aber man muss es ja erst mal finden. Und dazu gibt's eben die grossen, projektunabhaengigen Suchmaschinen.

                  Ja. Nur willst Du unter "p" mit aufgelistet werden, oder willst Du dass bei
                  "HTML" dein SelfHTML herausflutscht. Letzteres duerfte doch der Fall sein.
                  Allgemeine Suchmaschinen sollten gut sein, was allgemeine Begriffe betrifft,
                  und das waere im Web eben "HTML". Spezialisierte Suchmaschinen erst
                  fangen an, auch zwischen "td" und "th" fundiert zu differenzieren.

                  Ich denke, wenn Du auch noch forderst, dass saemtliche Datenbanken,
                  also auch sowas wie der Libri-Katalog, das Telefonbuch etc. wird es einfach
                  zu unuebersichtlich. Statt nun alles in einen Topf zu werfen, sind die
                  Betreiber dazu uebergegangen die beliebten alten verzeichnisse wieder-
                  zuentdecken und nageln gleich neben dem Suchschlitz alles zu den
                  beliebten Themen. zB SelfHTML bei Fireball

                  Guides/Internet/Webbastler

                  und da ist dann das HTML-Kompendium
                                      Das A & O einer jeden Website: die Hyper Text
                                      Markup Language. Stefan Münz spricht sie perfekt

                  gruesse

                  Stefan R. Mueller