Christoph Zurnieden: Stoppwortliste

Beitrag lesen

Hi,

wer kennt eine Zusammenstellung/Liste gängiger Stoppwörter für die deutsche Sprache?

Hätten die Herren Kollegensich nicht auf merkwürdige Rechschreibreformen verlassen, wären sie fündig geworden ;-)
Hier http://www.culturelinks.ch/help/tools/stopwrds.htm ist eine Liste mit Listen.

Aber mal Scherz beiseite: Logik bringt einen da wirklich weiter:
Wer braucht denn Stopwörter, frage man sich. Die Antwort ist klar: Suchmaschinen, Textindizierer und andere. Da mandie Stopwortlisten gerne benutzen möchte, muß nicht nur die Liste erhältlich sein, sondern auch die Lizenz stimmen. Eine Suche bei <sourceforge.net> bzw <freshmeat.net> ergibt so einiges aber da ich hinter einem Modem hänge kann ich keine aktuellen Angaben machen, da die Dinger zu groß sind, sie sich nur dafür runterzuladen.
Einiges habe ich hier, so z.B. swish http://swish-e.org. Die dort eingesetzte Stopwortliste ist von Rainer.Scherg (Rainer.Scherg[hier kommt ein Klammeraffe hin]t-online.de). Da kurz, direkt hier:
---snip---
ab aber als am an auch auf aus
bei beim bin bis bist
da dadurch daher dann darum das dass daß dein deine dem den der deren des
deshalb die dies dieser dieses doch dort du durch
ein eine einem einen einer eines er es euer eure euren
für fuer
haben hatte hatten hattest hattet hätte haette hätten hätten
hier hinten
ich ihr ihre im in ist
ja jede jedem jeden jeder jedes jener jenes jetzt
kann kannst können könnt könnte konnte koennen koennte könnten koennten
machen mein meine mit muss muß musst mußt muessen müssen muesst müßt
muesste müßte
nach nachdem nein nicht noch nun
oder
seid sein seine seit sich sie sind soll sollen sollst sollt solltest
sonst soweit sowie
und unser unsere unter über ueber
vom von vor
wann warum war waere wäre was weiter weitere welcher welcher
wenn wer werde werden werdet weshalb
wie wieder wieso wir wird wirst wo wurde
zu zum zur zurück
---snap---

Das ist eine recht gute allgemeine Stopwortliste für deutschen Text. Spezielle Listen gibt's bei dem erste Link, den ich ganz oben aufgeführt hatte oder Du mußt Dir eine selber basteln. Das ist relativ einfach: Du brauchst nur eine Korpus der gewünschten Fachliteratur (oder Newsgroup, Fanseite, was weiß ich), der so groß wie möglich sein sollte. Da sortierst Du die Worte absteigend nach Häufigkeit und nimmst die Liste von oben. Du wirst nicht automatisch alle nehmen können, aber so ist es schnell in ein, zwei Minuten getan.
Auch sollten die Stopwörter einem Stemming unterworfen werden, damit die Liste nicht so lang, wie die oben gepostete wird. Allerdings ist diese Liste wiederum so kurz, das der erforderliche Mehraufwand an Speicher gegenüber der Komplexität eines Stemmings nicht in's Gewicht fällt.

Vielleicht ist der Begriff Stoppwörter auch falsch, was ich meine sind Wörter, welche z.B. in einer einfachen Suche erstmal nicht berücksichtigt werden, also z.B. und, ist, der, die, das, usw.

Ja, das nennt man Stopwörter.

Wer eine solche Liste zur Verfügung stellen möchte bzw. eine Quelle dazu kennt möge sich bite melden.

Ich habe jetzt einfach mal Deutsch angenommen. Aber bei o.a. Quelle (Swish-e) gibt es noch Stopwortlisten für niederländisch, spanisch und englisch. Wenn Du mehr brauchst, muß Du wahrscheinlich nur rauskriegen, was "Stopwort" und "Liste" in der gewünschten Sprache heißt ;-)

Ah, hier http://www.gragert.de/magister/anhang_b.html ist auch noch eine.

so short

Christoph Zurnieden