Sven Rautenberg: Eine neue Suche für selfhtml.org!

Wir suchen Freiwillige zur Entwicklung einer neuen Site-Suche auf Basis von "Lucene".

Darf sich SELFHTML zu Weihnachten auch was wünschen?

Es ist schon viele Jahre her, als unsere Spendenaktion dafür gesorgt hat, dass wir drei wunderschöne neue Server besorgen konnten. Es kommt mir aber noch so vor, als wäre es erst gestern gewesen.

Wir haben unser Augenmerk jetzt auf einen Teil gerichtet, der noch viel länger keine Aktualisierung erhalten hat: Unsere Site-Suche auf suche.de.selfhtml.org. Das Skript dort ist immer noch dasselbe, was schon vor der Spendenaktion jahrelang für Suchergebnisse gesorgt hat. Es ist recht einfach gestrickt, und es funktioniert bis heute ganz gut, aber es ist nie wirklich an die verschiedenen Weiterentwicklungen des restlichen Raumes angepaßt worden. Das Forumsarchiv wird, obwohl schon lange geplant, noch immer nicht unter Berücksichtigung der Besucherbewertung durchsucht ("hilfreiche Postings"), und der aktuelle Teil des Forums sowie das Weblog sind überhaupt nicht durchsuchbar.

Wir selbst wünschen uns also schon lange, dass die Suche besser wird - und für eine lange Zeit hat es auch so ausgesehen, als ob unser Wunsch erfüllt würde, aber wir haben das Projekt Die neue Suche - Der erste Versuch leider aus diversen Gründen, primär aber bedingt durch das Ausscheiden des Entwicklers, dieses Jahr unvollendet sterben lassen müssen.

Neues Spiel, neues Glück!

Vielleicht haben wir beim zweiten Versuch mehr Glück! Die wichtigsten Infos stehen auf dieser Seite.

Wer Lust, Zeit und Interesse hat, sich mit der Textsuchmaschine Lucene auseinanderzusetzen (bzw. mit einer der Implementierungen in Java, C++ oder PHP), ist herzlich eingeladen, sich zu beteiligen. Wir brauchen ein schönes Interface für die Such-Seite inkl. Ergebnisausgabe, und außerdem diverse Indexer für die unterschiedlichen Informationshappen unserer Site, also die Doku selbst, Artikel, Forumsarchiv, Weblog etc.

  1. Ich empfehle, dass Ihr Euch auch mal Solr (http://lucene.apache.org/solr) anschaut. Das setzt auf Lucene auf, vereinfacht aber einige Dinge. Es ist im Prinzip ein Server-Prozess, der Dokumente indexieren und suchen kann.

  2. Gibt es Gründe, die gegen http://www.mnogosearch.org sprechen?

  3. Ich empfehle, dass Ihr Euch auch mal Solr (http://lucene.apache.org/solr) anschaut. Das setzt auf Lucene auf, vereinfacht aber einige Dinge. Es ist im Prinzip ein Server-Prozess, der Dokumente indexieren und suchen kann.

    Das ändert aber nichts daran, dass ein Abfrageinterface ähnlich dem jetztigen und Indexer, die den bisherigen Content verarbeiten können müssen, programmiert werden müssen. Dennoch danke für den Tipp, derjenige, der das Projekt übernehmen will kann sich das ja mal ansehen.

    Gibt es Gründe, die gegen http://www.mnogosearch.org sprechen?

    Das beackert (zumindest laut dessen Doku) das, was über HTTP veröffentlicht wird, d.h. es ist im Prinzip ein Spider, der das Webangebot abgrast. Die Grundeinheit ist "Dokument, das über HTTP ausgeliefert wird". Die bisherige Suche ist jedoch mindestens beim Forumsarchiv (ich glaube sogar auch bei SELFHTML selbst) detallierter, d.h. man wird per Anker direkt auf einen Thread im Posting weitergeleitet, wenn man auf ein Suchergebnis klickt. Das wäre mit der Lösung nicht umsetzbar. Zudem stehen im Forumsarchiv Bewertungskriterien wie "fachlich hilfreich" zur Verfügung, die man auswerten könnte. Diese Gewichtung wäre damit auch nicht umsetzbar.

    Kann natürlich sein, dass man es mit irgendwelchen Tricks es doch irgendwie schafft, diese Dinge zu realisieren; die Frage ist, ob diese Tricks dann nicht mehr Aufwand sind, als gleich einen Indexer für Lucene zu schreiben - bzw. es müsste ja nicht der komplette Indexer geschrieben werden, Lucene et. al. bieten ja bereits fertige Bausteine an, die man nur noch richtig zusammenbasteln muss.

  4. Leider habe ich keine Zeit. Kann euch solr aber nur wärmstens empfehlen weil man durch das http json,xml,... Interface für Suche und "Befüllung" mit solr in so ziemlich jeder Sprache eine Suche aufsetzen kann.(=mehr Entwickler kommen in Frage) Zusätzlich hat solr noch diese Kategorienfunktion(faceted search). "Ihre Suche enthielt Treffer aus folgenden Bereichen/Kategorien. Möchten sie sie die Treffer weiter einschränken." Solr ist auch richtig richtig schnell und man muss kein java können um solr zu benutzen.

  5. Ich habe gerade einen neuen Blog gestartet und bin auf der Suche nach einem umfangreichen Wordpress-Suchplugin hier gelandet. Die Suche soll insbesondere Trackingmöglichkeiten in der Administration bieten. Gibt es so etwas? Ich suche schon ein ganze Weile. Ansonsten wird ein Wochenende geopfert und ein weiteres, sinnloses Spiel-Plugin erobert das Internet.

    Viele Grüße, Nils

  6. Hallo Nils, da fragst du am besten in einem Wordpress-Support-Forum. Wir setzen hier weder Wordpress ein noch denke ich, dass du an dieser Stelle (im Kommentarbereich eines schon älteren Blog-Eintrags) auf Wordpress-Fachleuten treffen wirst.