gnarf: Website parsen und adult/spam content erkennen

Beitrag lesen

Hallo !

dass das keine ganz triviale sache ist ist mir klar. auch zum programmieren ist das nicht ganz einfach, weshlab ich gehofft hätte dass es da was fertiges gibt. finde aber leider gar nichts, vielleicht suche ich aber auch nur falsch.

es muss nicht perfekt funktionieren, und sollte notfalls eher etwas streng sein.

etwas auf die schnelle selbst gemachtes ist sicher nix. sollte auch mehr sein als ein "schmuddelwörtersucher". gerade diese furchtbaren werbelink seiten weiss ich gar nicht wie man finden sollte. dachte schon auf anzahl der links im vergelich zur gesamttextlänge etc. aber da kommt auch irgendwie nix raus.

hätte gehofft dass es vielleicht sogar eine api gibt, wo man domains auf einer blacklist anfragen kann etc.

naja vielleicht findet sich ja noch was. ich suche noch ;-)

lgm