Halihallo Matze
Dazu habe ich mit philipp schon einiges erarbeitet bzw. ausgetauscht.
Ich hoffe Philipp hält Wort und ch kann bei der nächsten Zusammenfassung auf seine ausarbeitung zurückgreifen.
Auch wenn ich die Umsetzung unserer Idee mitlerweilen auch für verworfen erachte,
wollte ich nochmals kurz auf die Indexierung durch Schlagworte zurückkommen und mein
"Wort" halten.
Ich muss zugeben, die Indexierung für dieses Forum ist nicht einfach zu gestalten,
zum einen hängt dies mit der Beschaffenheit der einzelnen Beträge zusammen, zum anderen
ist es schwer den Inhalt der Postings über Schlagworte wirklich zu differenzieren.
Postings sind in ihrer Natur sehr klein (normalerweise werden Texte und Artikel
indexiert, keine Paragraphen und kurze Statements) und was noch schlimmer ist: sie stehen
meistens in einem Bezug zum Vaterposting und behandeln ein Thema fast nie vollständig und
abschliessend.
Wenn ich eine Schlagwortindexierung vorschlagen würde, würde ich diese wie folgt
vorgehen:
Zuerst würde ich eine eingene Klassifikation aufstellen, jede Klasse mit einem oder
mehreren Schlagworten versehen, die eineindeutig auf die Klasse verweisen. Kommen in
der Schlagwortzuordnung in einem Posting alle Deskriptoren/Schlagwörter einer Klasse
vor, wird das Posting unter dieser Klasse referenziert. Diese Klassenschlagworte
wiederspiegeln prinzipiell nur den Themenbereich des Postings.
Der Themenbereich reicht jedoch nicht aus, ansonsten wäre eine reine Klassifikation
ausreichend. Um den Mehrwert für eine Suche zu verbessern müssen die Beiträge im
Typ qualifiziert werden. Handelt es sich um einen Sicherheitsaspekt, einen
Performanceaspekt oder um eine "Menschelei". Man spricht hier von Roles, ein Posting
kann also mehrere Rollen übernehmen (vergl. ORM-Modellierung, ein Objekt/Thema kann von
mehreren Rollen/Perspektiven gesehen werden; man setzt ein Objekt in einen gewissen
Kontext). Für die Suche könnte dies bedeuten, dass nicht nur Links (wie z.B.
AND, OR, NEAR, ...) verwendet werden können, sondern auch Roleindikatoren (Gesucht ist
ein Posting in der Klasse Datenbank, welches die Rolle "Performance" bespricht).
Dies wäre eine gute Möglichkeit die precision/Präzision der Ergebnisse zu verbessern.
Schlagwörter zur Typisierung (Roles) von Postings wären z.B.:
-Erklärung Fachbegriff
-Performance
-Sicherheit
-Humor
-Barrierefreiheit
-Umsetzung
-Standard
-Validität
-...
Schlagwörter zur Klasse Datenbank wären z.B.:
Datenbank
Datentypen
-VARCHAR
-CHAR
-INT
-UNSIGNED
-AUTOINCREMENT
-SEQUENCE
-Längenangabe
-Datentypen
Relation
-Attribut
-Tabellentreiber
-Relation
View
-Subselect
-konzeptionelle Schicht
-view
Privileges
-GRANT
-Privileges
Join
-Join
Selektion
-WHERE
-Selektion
Projektion
-SELECT *
-Projektion
-Agregatsfunktion
Gruppierung
-Gruppierung
-GROUP BY
-HAVING
-Gruppenselektion
Limitierung
-Limitierung
-LIMIT
Subselect
-Subselect
Optimierung
-Optimierung
-Performance (s. Typenqualifizierung)
Index
-Index
Unique Index
-Unique Index
-Primary Key
-Subselect
-Join
Modellierung
-Modellierung
-ORM
-ER
-UML
Synthese
-Synthese
-Synthesealgorithmus
-Funktionale Abhängigkeit
Transaktion
-Transaktion
-COMMIT
-ROLLBACK
Nur als _sehr_ grobes und unvollständiges Beispiel. Für einen wirklich guten Wortschatz
müsste man entweder sein ganzes Wissen in den Index spiegeln (induktiver Ansatz) oder
einfach bei einem Posting anfangen, wichtige Wörter extrahieren, diese in den Index
aufnehmen, nächstes Posting bearbeiten (der sogenannte deduktive Ansatz).
Es fehlt die genaue Beschreibung, wie der Index aussehen soll. Sollen Postings nur in
Themengebiete eingeteilt werden, oder soll möglichst jedes Posting eindeutig umschrieben
werden? - Die Frage, wie breit und spezialisiert der Index sein soll. Naja, es ist
eben wirklich keine einfache Aufgabe einen Index zu erstellen... Verstärkt wird diese
Komplexität durch eine fehlende Beschreibung der Aufgabe zudem :-)
Viele Grüsse
Philipp
RTFM! - Foren steigern das Aufkommen von Redundanz im Internet, danke für das lesen der Manuals.
Selbstbedienung! - Das SelfForum ist ein Gratis-Restaurant mit Selbstbedienung, Menüangebot steht in den </faq/> und dem </archiv/>.