Tim Tepaße: RSS Dateien erkennen mit google

Beitrag lesen

Hallo »Googler«,

leider halten es viele webmaster nicht für nötig, ihre rss dateien auch *.rss zu nennen.

Um ein Mißverständnis aufzuklären: Es gibt keinerlei Zwang dazu, die vom
Dateisystem bekannten Dateiendungen auch in der URL aufzuführen. Manche (ich)
mögen sogar URLs, in denen sowas nicht auftaucht: http://example.org/aktuell

Im World Wide Web ist eigentlich eine Angabe dafür da, um zu erkennen, um
was es sich bei der Ressource hinter der URL handelt. Dies ist der sogenannte
MIME-Type, der beim Ausliefern der Daten vom Webserver mitgeschickt wird.
Für HTML ist der MIME-Typ zum Beispiel »text/html«. Es gab mal einen Initiative,
bei der IETF den MIME-Typ »application/rss+xml« für RSS zu reservieren, diese
ist aber im Sande verlaufen. Weswegen RSS oft mit einem anderem MIME-Typ
ausgeliefert wird.

Es gibt also keine wirkliche Möglichkeit, RSS-Ressource maschinell als RSS
zu erkennen, es sei denn, man parst den Inhalt der Datei mit einem RSS-Parser.

gibt es dennoch eine möglichkeit ähnlich filetype:rss bei google zu suchen?

So wie ich das »filetype«-Feature bei Google verstehe, gilt dies nur für
die Nicht-HTML-Dateien, die Google zusätzlich parsen und verstehen kann,
also die Office-Formate, *.doc, *.pdf, *.ps, all sowas eben. RSS gehört
wohl nicht dazu. Für Google sind RSS-Dateien dann einfach nur Textdateien,
in denen irgendein XML-Format mit irgendwelchen Inhalten steht.

Es wäre nicht schwierig, das zu ändern, Google dürfte wohl auch ein Interesse
haben, schließlich gehört ihnen mit Blogger eine größere Weblogfirma. Es
scheint aber nicht auf der Agenda zu stehen. HTML ist eben das, was sie
am liebsten parsen.

denn wenn ich nun filetype:rss suchbegriff eingebe, so werden mir nur die
rss dateien, die auch demnach benannt sind angezeigt :-(

Ich kann mir zwar nicht unbedingt vorstellen, weswegen man nur in RSS-Dateien
suchen sollte, aber da ist eine Suche in den schon genannten RSS-Verzeichnissen
oder aber mit den RSS-Statistikdiensten, wie zum Beispiel Technorati
sinnvoller.

Ich kann mir wirklich keine Problemstellung aussuchen, weswegen Du das
machen möchtest. Wenn Du wirklich ein Problem damit hast, dann schilder
das doch mal, vielleicht gibt es auch ganz andere Lösungen.

Tim