Backlinks zu Archivpostings
LanX
- zu diesem forum
Hi
Mir ist heute aufgefallen wie oft doch sinngemäß zusammenhängende Diskussionen sich auf viele wiederholende Threads verteilen. Um alle diese Beiträge
dann zu lesen muss man oft mehrere Suchläufe starten.
Diese Threads sind aber oft trotzdem verbunden
weil die neueren dann Links auf die alten Posting enthalten. Leider gibts aber umgekehrt keine Ad Hoc
Möglichkeit von den refernzierten Postings zu den
referenzierenden zu gelangen.
Mein Vorschlag den ich zur Diskussion stellen möchte:
Mit jedem Psoting auch die Links der Postings auflisten die darauf verweisen.
Technisch gibts viele (teilweise sehr aufwendige Möglichkeiten) dieses zu realisieren, von statischen Listen über dynamischen Suchläufen die entweder
Server oder Clientseitig getriggert werden.
Um Misssvertsändnisse zu vermeiden, mir ist klar,
dass es viel dringendere Teilprojekte hier gibt.
Ich denke sowas wird noch lange brauchen, mir
gehts in erster Linie um die Sinndiskussion:
Meint ihr nicht auch dass solche "Backlinks" dass
Archiv verbessern würden?
Tschuess
Rolf
PS: Vor einiger Zeit hatte ich schon vorgeschlagen direkt aus den Selfhtml-Paragraphen nach Forumsbeiträgen suchen zu können die diese
Referenzieren. Ist dass noch im Hinterkopf der
Macher??? Technologisch wäre dass nur eine Variante des
vorherigen.
Sup!
Datenbanktechnisch duerfte das gar kein Problem sein.
Die Dokumente liegen ja in XML vor.
Dann kann man ganz locker mit XPath und XPointer eine Liste aller XML-Dateien erstellen, die auf das Posting verweisen, um das es geht.
Ich sag nur "FLoWeR" ;-)
Gruesse,
Bio
(Der heute eine Ueberdosis XML und Objektorientierte Datenbanken hatte, und im uebrigen glaubt, dass man einen Athlon XII-8000 dafuer brauchen wuerde, in eingermassen angemessener Zeit etwas mit XPath und XPointer zu finden.)
Hoi,
(Der heute eine Ueberdosis XML und Objektorientierte Datenbanken
hatte, und im uebrigen glaubt, dass man einen Athlon XII-8000
dafuer brauchen wuerde, in eingermassen angemessener Zeit etwas
mit XPath und XPointer zu finden.)
Sei froh, dass du nicht jeden Tag mit besch... OO-Datenbanken zu tun
hast. Ich verdiene damit (unter anderem) meine Broetchen und muss
jeden Tag mit einer objekt-orientierten, verteilten DB (Lotus Notes)
arbeiten *piens* ;-)
Aber nicht nur das, es kommt noch schlimmer: ich darf Schnittstellen schaffen von Office-Applikationen (Lotus SmartSuite, diverse MS Office)
zu Notes und umgekehrt. Und das in -- na? Erraten? Genau,
VisualBasic 6.0 ;-)
Naja, genug rumgeheult.
Gruesse,
CK
Sup!
Sei froh, dass du nicht jeden Tag mit besch... OO-Datenbanken zu tun
hast. Ich verdiene damit (unter anderem) meine Broetchen und muss
jeden Tag mit einer objekt-orientierten, verteilten DB (Lotus Notes)
arbeiten *piens* ;-)
*Freu* *Freu* *Freu*
Lotus Notes ist eine verteilte DB? Wusste ich gar nicht, ich dachte, das waer so 'nen Groupware-Kram.
Aber nicht nur das, es kommt noch schlimmer: ich darf Schnittstellen schaffen von Office-Applikationen (Lotus SmartSuite, diverse MS Office)
zu Notes und umgekehrt. Und das in -- na? Erraten? Genau,
VisualBasic 6.0 ;-)
Hoehoe! Scherge, Scherge!
Im Moment bastele ich freiwillig mit VB6 rum. Manchmal funktioniert es ja sogar, nur die implizite Typumwandlung ist mir irgendwie suspekt.
Manchmal z.B. scheint es mir, als ob VB6 selbst nicht weiss, welchen Typ seine Variablen haben...
Neulich z.B. wollte eine Date-Variable einfach kein Ergebnis einer DateAdd Funktion annehmen... ein anderes Mal musste ich auf Longs zurueckgreifen, um das Ergebnis einer 24-Bit Zahl dividiert durch 256^2 zu speichern... jede vernuenftige Programmiersprache haette da weniger rumgememmt als VB.
Wie auch immer, Du tust mir wirklich leid. Vielleicht kriegst Du mal einen schoeneren Job...
*Klopft CK freundschaftlich-unterstuetzend auf die Schulter*
Gruesse,
Bio
Hoi,
Lotus Notes ist eine verteilte DB? Wusste ich gar nicht, ich
dachte, das waer so 'nen Groupware-Kram.
Das, was da rauskommt, ist dann meistens Groupware ;-)
Im Moment bastele ich freiwillig mit VB6 rum.
Wer ist hier der Scherge? ;-)
Manchmal z.B. scheint es mir, als ob VB6 selbst nicht weiss,
welchen Typ seine Variablen haben...
Deshalb auch immer explizite Typenwandlung benutzen ;-)
Wie auch immer, Du tust mir wirklich leid. Vielleicht kriegst Du
mal einen schoeneren Job...
In 2 1/2 Jahren dann.
*Klopft CK freundschaftlich-unterstuetzend auf die Schulter*
Tu nicht so! ;-)
Gruesse,
CK
Hallo Bio, hallo Christian!
Hoehoe! Scherge, Scherge!
Im Moment bastele ich freiwillig mit VB6 rum.
^^^^^^^^^^
Also ... bisher hab ich diesen Thread hier noch nicht besonders beachtet ... und grad dachte ich mir, bevor er ins Archiv rutscht, muß ich mal reinschauen, worum's da eigentlich ging ... und dann ... *SCHOCK* ... nicht nur, daß die Selfer langsam aber sicher, durch ihre hinterlistigen Arbeitgeber gezwungen, zu $chergen werden ... nein, nun gibt Bio erneut zu, daß er auch noch _freiwillig_ mit MONOPOLISTEN gemeinsame Sache macht!
... wo soll das noch enden ... ist ja schon fast so, wie damals mit Sodom und Gomorra! ;)
btw an alle Rächdschraipgünsdlär:
Ich habe mein Posting gerade extra nochmal (inzwischen mehrmals, war auch nötig ;) zur Korrektur durchgelesen, und ich hab einige wirklich unnötige Tippfehler entdeckt ... ergo: vor'm Posten nochmal lesen, dann klappt's auch mit den restlichen Forumern, und man muß nicht erst was von Deutsch erzählen, sondern kann gleich auf das eigentliche Problem eingehen ;)
MfG
*G*ötz, der auf bessere Zeiten hofft ... ;)
Sup!
Also ... bisher hab ich diesen Thread hier noch nicht besonders beachtet ... und grad dachte ich mir, bevor er ins Archiv rutscht, muß ich mal reinschauen, worum's da eigentlich ging ... und dann ... *SCHOCK* ... nicht nur, daß die Selfer langsam aber sicher, durch ihre hinterlistigen Arbeitgeber gezwungen, zu $chergen werden ... nein, nun gibt Bio erneut zu, daß er auch noch _freiwillig_ mit MONOPOLISTEN gemeinsame Sache macht!
Du siehst das falsch: Christian prostituiert sich für seinen Arbeitgeber und benutzt M$-Software, obwohl er kündigen könnte - ich erforsche die Schwächen von VB, um besser gegen M$ argumentieren zu können, und unterminiere somit das Böse, anstatt mich, wie CK, der übrigens schon mal SuSE Linux mit Yast2 installiert hat, daran zu verlieren!
VB habe ich geschenkt bekommen, M$ hat also nicht daran verdient, und mein VB6 Buch ist von Addison-Wesley, und das ist ein guter Verlag.
Das wollte ich nur noch gesagt haben, bevor der Thread im Archiv verschwindet...
Gruesse,
Bio
Hallo Bio!
ich erforsche die Schwächen von VB [...] das Böse [...] CK, der übrigens schon mal SuSE Linux mit Yast2 installiert hat [...]
Das hört sich ja fast einleuchtend an, nur muß ich Dich warnen, daß Du nicht irgendwann doch auf William's fiese Tricks reinfällst (Geschenke machen ist immer gut, um Leute zu etwas zu brignen, was sie eigentlich gar nicht wollen ;), und Dir dann, weil dir VB doch so gefällt, eine Version _kaufst_ ... das wäre ja ein SKANDAL!
... und CK hat Yast2 und SuSE Linux bestimmt auch nur benutzt, um deren Schwächen rauszufinden! :)
VB habe ich geschenkt bekommen, M$ hat also nicht daran verdient, und mein VB6 Buch ist von Addison-Wesley, und das ist ein guter Verlag.
Erstmal ein paar ganz spontane Fragen dazu:
Hat der, von dem's Du geschenkt bekommen hat etwa nichts dafür bezahlt? ... war er gar ein Dieb? --> Nimmst du Geschenke von Dieben an? Und dann auhc noch solche?
BEWEISE, daß das ein guter Verlag ist!
Dies geht _nur_, indem Du eine ausreichende Anzahl (nocht nicht genau festgelegt ;) von Büchern aus diesem Verlag nennen kannst, die _nichts_ mit M$ zu tun haben!!! (ohne nachzuschlagen natürlich.)
Das wollte ich nur noch gesagt haben, bevor der Thread im Archiv verschwindet...
... mal sehen, wann der Schwanzabscheneider hier vorbeikommt ... ;)
MfG
Götz
Sup!
... mal sehen, wann der Schwanzabscheneider hier vorbeikommt ... ;)
Nicht früh genug...
Moment... Addison Wesley... Goto Java2 - ein Haufen TeX Bücher... und überhaupt, ich beantrage Beweislastumkehr - beweis' Du halt, daß Addison-Wesley hauptsächlich Bücher vertreibt, die sich um M$ drehen... schliesslich machst Du hier auf Anklaeger ;-)
Gruesse,
Bio
Hallo Bio!
[...] Beweislastumkehr [...]
Naja ... ich gebe mich auf jeden Fall nicht geschlagen ... aber sagen wir's mal so:
"Einigen wir uns auf unentschieden?"
(vielleicht ist das zitat nicht wortwürtlich korrekt, aber zumindest sinngemäß ;)
MfG
Götz
Hi
Dann kann man ganz locker mit XPath und XPointer eine Liste aller XML-Dateien erstellen, die auf das Posting verweisen, um das es geht.
Naja so wohl kaum performant. Da gibst bei diesem Server sinnvolleres, z.B. die
Suche dafuer misbrauchen!
Ich sag nur "FLoWeR" ;-)
Bitte??? kein Suchergebnis in 'Forums-Archiv xxxx'!
Das Konzept an sich haette ich gerne diskutiert, schlieBlich
koennte man es auch in andren Projekten verwenden!
Deswegen jetzt mal unter der Flagge 'Sonstiges - Hypertext' in der Hoffnung
Interesse zu erregen.
Bye
Rolf
Hi Rolf,
Mein Vorschlag den ich zur Diskussion stellen möchte:
Mit jedem Posting auch die Links der Postings auflisten die darauf
verweisen.
Technisch gibts viele (teilweise sehr aufwendige Möglichkeiten)
dieses zu realisieren, von statischen Listen über dynamischen
Suchläufen die entweder Server oder Clientseitig getriggert werden.
"sehr aufwendig" trifft die Sache gut.
Nur um die Art der auftretenden Probleme zu beschreiben, ein Verweis
auf einen Fall aus demselben Problemkreis:
http://sourceforge.net/tracker/index.php?func=detail&aid=425218&group_id=21057&atid=121057
Meint ihr nicht auch dass solche "Backlinks" dass Archiv verbessern
würden?
Kommt darauf an.
Die Übersichtslisten der Archiv-Monats-Teile sind derartig gigantisch,
daß ich über diese wohl kaum noch auf das Archiv zugreifen werde.
Und wenn ich die Suchmaschine verwenden muß, dann kann ich ja auch nach
den Verweisen auf ein Posting im Archiv suchen.
PS: Vor einiger Zeit hatte ich schon vorgeschlagen direkt aus den
Selfhtml-Paragraphen nach Forumsbeiträgen suchen zu können die diese
Referenzieren. Ist dass noch im Hinterkopf der Macher??? Technologisch
wäre dass nur eine Variante des vorherigen.
Das sehe ich nicht so (weil die Entstehungsgeschichte der erforderlichen
Infrastruktur anders ist).
Schau Dir mal die Einstiegsseite des Self-Portals an. Links oben enthält
sie ein Such-Formular. Dasselbe gilt für die Startseite der Linkliste
oder diejenige der Feature-Artikel; diese Formulare bewirken jedoch nur
eine Suche innerhalb dieses Teilbereichs. Auch die Startseite der Online-
Version von SelfHTML 8.0 enthält ein solches Formular.
Würde man aus jedem SelfHTML-Paragraphen einen Suche nach referenzierenden
Archiv-Einträgen anstoßen wollen, dann könnte man in jeden dieser Paragra-
phen ein entsprechendes Suchformular einfügen. (Den Suchbegriff würde man
in diesem Fall nicht als Eingabefeld, sondern als HIDDEN-INPUT setzen.)
Mit diesem Wissen kannst Du Dir selbst lokal eine modifizierte SelfHTML-
Version basteln, die genau so funktioniert, wie Du willst.
Weil das eine irre Arbeit wäre, alle Seiten manuell anzupassen, könntest
Du Dir SelfHTML auf einem lokalen Webserver installieren und für den Zu-
griff auf jedes HTML-Dokument einen Mechanismus starten, welcher
Dabei sollte dieser Mechanismus _nicht_ durch einen expliziten CGI-Aufruf
erfolgen, weil dann sämtliche relativen Verweise innerhalb des angezeigten
Dokuments nicht mehr funktionieren würden - die zeigen dann nämlich auf
das Installationsverzeichnis des CGI-Skripts. Du müßtest in diesem Falle
sämtliche Links extrahieren und dynamisch anpassen - das ist viel Arbeit.
Aber der Apache-Webserver ermöglicht Dir die Einbindung eines CGI-Skripts
als Handler! Du könntest also weiterhin die normalen URLs des SelfHTML-
Baums verwenden, und trotzdem würde für jedes Dokument Dein CGI-Skript
aufgerufen und bekäme die Information, welches Dokument es verarbeiten
soll. Du würdest damit eine transparente Schale um SelfHTML legen.
Urheberrechtlich wäre so etwas (im Falle einer Veröffentlichung) übrigens
ein eher zweifelhaftes Vergnügen. Eine interessante Grenzfrage: Wäre das
eine Änderung des Inhalts von SelfHTML?
Meiner Meinung nach ist dieses Modell vergleichbar mit der automatischen
Übersetzung eines Dokuments via Babelfish.
Viele Grüße
Michael
Hi Michael
auf einen Fall aus demselben Problemkreis:
http://sourceforge.net/tracker/index.php?func=detail&aid=425218&group_id=21057&atid=121057
Ja ist der selbe Problemkreis! Ich persoenlich würde
da als ersten Schritt eine Umleitung des kaputten Links
am Server vorschlagen, statt gleich die Links umzuschreiben. (zugegeben kenne ich den Realisierungsaufwand dafür nicht)
Meint ihr nicht auch dass solche "Backlinks" dass Archiv verbessern
würden?
...
Und wenn ich die Suchmaschine verwenden muß, dann kann ich ja auch nach
den Verweisen auf ein Posting im Archiv suchen.
Nun wenn man in einem Posting bist, und du kannst komfortabel zu "verwandten" Postings navigieren
kann sich das Nutzungsverhalten des Archivs sehr ändern.
Die Suchmaschine erst aufzurufen und dann den Link hineinzudraggen, ist erstens deutlich höherer Aufwand und zweitens eine Idee die nur versierten Nutzen wie dir
kommt.
Würde man aus jedem SelfHTML-Paragraphen einen Suche nach referenzierenden
Archiv-Einträgen anstoßen wollen, dann könnte man in jeden dieser Paragra-
phen ein entsprechendes Suchformular einfügen. (Den Suchbegriff würde man
in diesem Fall nicht als Eingabefeld, sondern als HIDDEN-INPUT setzen.)
Ich hab dass schon als Bookmarklet fuer mich zufriedenstellend gelöst. Greift sich die URL
und startet dein Suchscript in nem extra Fenster.
Nachteil: Der Server wird ständig mit den gleichen Suchaufträgen belastet. Solange ich das alleine mit Flatrate mache fällts nicht ins Gewicht.
Man könnte bei einer Veröffentlichung auch die JS-Suchmaschine (die mir BTW sehr gefällt! Lob!) der V8 dafür missbrauchen, dann bräuchte man nur in regelmäßigen Abständen (monatlich) die Suchtabelle zu aktualisieren und zum Download anzubieten.
Urheberrechtlich wäre so etwas (im Falle einer Veröffentlichung) übrigens
ein eher zweifelhaftes Vergnügen. Eine interessante Grenzfrage: Wäre das
eine Änderung des Inhalts von SelfHTML?
Meiner Meinung nach ist dieses Modell vergleichbar mit der automatischen
Übersetzung eines Dokuments via Babelfish.
Hmm ein Set von BMLs zu veröffentlichen dürfte keine Probleme darstellen, aber wozu? Der Nutzerkreis für ein AddOn wäre in keinem Verhältnis zum Aufwand die Dinger Crossbrowser anzupassen und zu supporten.
Von der Usability fänd ichs auch beser wenn nach jeder
Sinneinheit mit eigenem Anchor (Paragraph,Posting) eine
dynamische Link gezeigt wird mit "Zu dieser
Einheit gibts n referenzierende Postings im Archiv"
Mich interessierte eigentlich jetzt weniger die technische Umsetzung sondern das Konzept an sich! Ich hab sowas eigentlich noch nirgends gesehen und empfinde es als qualitativen Fortschritt für jedes verwandte Projekt. Aber mit der Meinung bin ich hier vielleicht alleine.
Viele Grüße
Rolf
Hi Rolf,
Ich persoenlich würde da als ersten Schritt eine Umleitung
des kaputten Links am Server vorschlagen,
wohin?
(zugegeben kenne ich den Realisierungsaufwand dafür nicht)
Ich denke, Christian ist bei mod_rewrite inzwischen ziemlich fit.
Und wenn ich die Suchmaschine verwenden muß, dann kann ich
ja auch nach den Verweisen auf ein Posting im Archiv suchen.
Nun wenn man in einem Posting bist, und du kannst komfortabel zu
"verwandten" Postings navigieren kann sich das Nutzungsverhalten
des Archivs sehr ändern.
Wie bist Du denn überhaupt insn Archiv geraten, wenn nicht über die Suche?
Die Suchmaschine erst aufzurufen und dann den Link hineinzudraggen,
ist erstens deutlich höherer Aufwand und zweitens eine Idee die nur
versierten Nutzen wie dir kommt.
Hm ... natürlich könnte man bei der Anzeige eines jeden Archiv-Postings
automatisch ein Formular mit einbinden, welches die Suchmaschine mit
dem URL dieses Postings als Suchbegriff startet ...
Nachteil: Der Server wird ständig mit den gleichen Suchaufträgen
belastet. Solange ich das alleine mit Flatrate mache fällts nicht
ins Gewicht.
Theoretisch könntest Du Dir die Suchmaschine auf einem lokalen Webserver
installieren - was glaubst Du wohl, wie meine Entwicklungsumgebung dafür
aussieht? ;-)
Man könnte bei einer Veröffentlichung auch die JS-Suchmaschine (die
mir BTW sehr gefällt! Lob!) der V8 dafür missbrauchen, dann bräuchte
man nur in regelmäßigen Abständen (monatlich) die Suchtabelle zu
aktualisieren und zum Download anzubieten.
Die Indexdaten sind in beiden Fällen der Knackpunkt - an die muß man
irgendwie sinnvoll ran kommen. Als früher das Archiv noch downloadable
war, hätte es gereicht, sich lokal einen Indexer zu schreiben.
Von der Usability fänd ichs auch beser wenn nach jeder
Sinneinheit mit eigenem Anchor (Paragraph,Posting) eine
dynamische Link gezeigt wird mit "Zu dieser
Einheit gibts n referenzierende Postings im Archiv"
Wann soll diese Information jeweils aktualisiert werden?
(Achtung, das kostet jeweils eine Suche durch das gesamte Archiv.)
Viele Grüße
Michael
P.S.: Hatten wir eigentlich schon den Aspekt der mehrdeutigen Adressie-
rungen des URL-Universums in diesem Zusammenhang?
Und denjenigen der inkompatiblen Änderungen des Archiv-Formats
etc. ohne nachträgliche Anpassungen früherer Links?
Hi Rolf,
Ich persoenlich würde da als ersten Schritt eine Umleitung
des kaputten Links am Server vorschlagen,
wohin?
Na vom alten Link zum neuen ins Archiv. Oder willst Du mir andeuten
dass sich aus der thread-ID in der URL 't=12345' nicht in eindeutiger weise
der Archivlink ergibt?
Mal kurz nachgeschaut ... hmm man braeuchte noch das Anfangsdatum des
Threads um sowas Abzubilden
http://forum.de.selfhtml.org/?m=19507&t=3209
=> <forum.de.selfhtml.org/archiv/2002/1/3209/#19507>
(zugegeben kenne ich den Realisierungsaufwand dafür nicht)
Ich denke, Christian ist bei mod_rewrite inzwischen ziemlich fit.
Aehm,... ja dann kennt er ihn! Wenns technisch trivial ist dann würd ichs
so machen!
Und wenn ich die Suchmaschine verwenden muß, dann kann ich
ja auch nach den Verweisen auf ein Posting im Archiv suchen.
Nun wenn man in einem Posting bist, und du kannst komfortabel zu
"verwandten" Postings navigieren kann sich das Nutzungsverhalten
des Archivs sehr ändern.
Wie bist Du denn überhaupt insn Archiv geraten, wenn nicht über die Suche?
Nun durch andere Links, z.B. in Postings der Art:
"Diese Diskussion hatten wir schon siehe http://forum.de.selfhtml.org/?m=19507&t=3209."
Bei Vorhandensein der Backlinks kann man dann gleich zu anderen
verwandten Threads "Quernavigieren".
<träum>Delux waere noch wenn dann so ein Graph der Linkbeziehungen gezeichnet
würde, am besten interaktiv wie diese "Matrizen" bei wissen.de ;-)
</träum>
Die Suchmaschine erst aufzurufen und dann den Link hineinzudraggen,
ist erstens deutlich höherer Aufwand und zweitens eine Idee die nur
versierten Nutzen wie dir kommt.
Hm ... natürlich könnte man bei der Anzeige eines jeden Archiv-Postings
automatisch ein Formular mit einbinden, welches die Suchmaschine mit
dem URL dieses Postings als Suchbegriff startet ...
z.B.! Allerdings wuerde ich aus Performancegruenden dafuer eigene
Indexdateien generieren. Es reichen doch zwei Spalten
Referenzierter Link | Liste der referenzeierenden Postings
Nachteil: Der Server wird ständig mit den gleichen Suchaufträgen
belastet. Solange ich das alleine mit Flatrate mache fällts nicht
ins Gewicht.
Theoretisch könntest Du Dir die Suchmaschine auf einem lokalen Webserver
installieren - was glaubst Du wohl, wie meine Entwicklungsumgebung dafür
aussieht? ;-)
Och fuer mich reicht die Leistung des zentralen Suchscripts ... noch! ;)
Man könnte bei einer Veröffentlichung auch die JS-Suchmaschine (die
mir BTW sehr gefällt! Lob!) der V8 dafür missbrauchen, dann bräuchte
man nur in regelmäßigen Abständen (monatlich) die Suchtabelle zu
aktualisieren und zum Download anzubieten.
Die Indexdaten sind in beiden Fällen der Knackpunkt - an die muß man
irgendwie sinnvoll ran kommen. Als früher das Archiv noch downloadable
war, hätte es gereicht, sich lokal einen Indexer zu schreiben.
Also wenn ich das autark am SELFteam vorbei realisieren wollte, würd ich deine
Suchmaschine mit entsprechenden REgExp füttern, auf "Ausführliche Trefferanzeige"
gehen und basta. (das hab ich aber nicht vor)
Im Archiv 20002 gabs bisher
233 Suchergebnisse für http://selfhtml.teamone.de...
142 Suchergebnisse für http://forum.de.selfhtml.org...
Sagen wir gut 500 Links pro Monat, maximal 50 Bytes pro Link zum Codieren,
also <25K/Monat.
Wer das ganze dann offline per JS nutzen möchte bräuchte nur <300K pro Jahr
runterzuladen um die Verlinkungstopologie des ganzen Jahresarchivs auszuwerten!!!
Er könnte sich dann also zu jdm Selfparagraphen gleich ne Liste aller
referenzierenden Postings anzeigen lassen!!!
Von der Usability fänd ichs auch beser wenn nach jeder
Sinneinheit mit eigenem Anchor (Paragraph,Posting) eine
dynamische Link gezeigt wird mit "Zu dieser
Einheit gibts n referenzierende Postings im Archiv"
Wann soll diese Information jeweils aktualisiert werden?
Da das Archiv in Monatsquanten strukturiert ist würde ich Monatsschritte
vorschlagen!
(Achtung, das kostet jeweils eine Suche durch das gesamte Archiv.)
Wieso? Du brauchst nur den neuesten Monat zu durchsuchen und alle Links
zu extrahieren.
P.S.: Hatten wir eigentlich schon den Aspekt der mehrdeutigen Adressie-
rungen des URL-Universums in diesem Zusammenhang?
Und denjenigen der inkompatiblen Änderungen des Archiv-Formats
etc. ohne nachträgliche Anpassungen früherer Links?
Ja Jugend/Design-Sünden machen die Sache nicht einfacher ;-)
Jetzt im Ernst: mehrdeutige Adressierungen müssen beim durchsuchen
auf ein Standardformat normiert und so abgelegt werden.
Viele Grüße
Rolf
PS: Find ich gut dass man mit dir solche theoretischen Diskussionen führen kann! :)
Hi
Kleiner Nachgedanke: Die Zahl der referenzierenden Links auf einen Thread/Posting
stellt eigentlich auch eine Messgröße für die 'Wichtigkeit' dieses Beitrages
dar. Was man durch den Archivierungsbutton auch erreichen wollte, also die
Spreu vom Weizen zu trennen kann man (vielleicht?) so erreichen.
Tschuess
Rolf
Hi Rolf,
Ich persoenlich würde da als ersten Schritt eine Umleitung
des kaputten Links am Server vorschlagen,
wohin?
Na vom alten Link zum neuen ins Archiv. Oder willst Du mir andeuten
dass sich aus der thread-ID in der URL 't=12345' nicht in eindeutiger
weise der Archivlink ergibt?
Insbesondere das.
Mal kurz nachgeschaut ... hmm man braeuchte noch das Anfangsdatum des
Threads um sowas Abzubilden
http://forum.de.selfhtml.org/?m=19507&t=3209
=> <forum.de.selfhtml.org/archiv/2002/1/3209/#19507>
Eben.
Man müßte also wohl zweistufige Umsetzung machen:
1. Eine Rewrite-Umlenkung des URL auf ein einfaches Skript ...
2. ... welches die Monats-Unterteilung irgendwie versteht (aus Performance-
gründen würde ich eine statische Tabelle nehmen und nicht den Archivbaum
parsen) und selbst wiederum eine HTTP-redirection auf den tatsächlichen
URL ausgibt.
(zugegeben kenne ich den Realisierungsaufwand dafür nicht)
Ich denke, Christian ist bei mod_rewrite inzwischen ziemlich fit.
Aehm,... ja dann kennt er ihn! Wenns technisch trivial ist dann würd ichs
so machen!
Es ist zumindest keine Hexerei.
Eher die Frage, wie man es mit vernüftigem Wartungsaufwand hin bekommt.
(Das CGI-Skript könnte beispielsweise seine Konfigurationstabelle selbst
warten, wenn ein Zugriff auf einen Archiv-Monat kommt, der in dieser
Tabelle noch nicht vorhanden ist - der erste, der diesen Zugriff macht,
'bezahlt' für alle Nachfolger mit. Das Skript muß dann natürlich Schreib-
zugriffe gegen sich selbst synchronisieren.)
<träum>Delux waere noch wenn dann so ein Graph der Linkbeziehungen
gezeichnet würde, am besten interaktiv wie diese "Matrizen" bei
wissen.de ;-) </träum>
Mit welcher Wahrscheinlichkeit würde dieser Graph denn planar bzw. sinnvoll
in 2D darstellbar?
z.B.! Allerdings wuerde ich aus Performancegruenden dafuer eigene
Indexdateien generieren. Es reichen doch zwei Spalten
Referenzierter Link | Liste der referenzierenden Postings
Ja, aber bei inkompatiblem Indexformat mußt Du ein eigenes Zugriffs-Skript
schreiben. Bei kompatiblem nicht.
Insofern würde ich dann ggf. zwar separate Indexdateien erzeugen wollen,
aber nicht benötigte Spalten leer lassen.
Der Aufwand zum Spalten-Trennen ist bei leeren Spalten praktisch vernach-
lässigbar, und such.pl mit einer Reihe fest eingebrannter Parameter wird
im Self-Portal an diversen Stellen bereits verwendet.
Och fuer mich reicht die Leistung des zentralen Suchscripts ... noch! ;)
Für mich auch.
Also wenn ich das autark am SELFteam vorbei realisieren wollte, würd ich deine
Suchmaschine mit entsprechenden REgExp füttern, auf "Ausführliche Trefferanzeige"
gehen und basta. (das hab ich aber nicht vor)
Keinen site grabber auf den jeweiligen Archiv-Monat?
Wann soll diese Information jeweils aktualisiert werden?
Da das Archiv in Monatsquanten strukturiert ist würde ich Monatsschritte
vorschlagen!
Das ist natürlich sehr viel seltener als das Ideal, einen Beitrag im Moment
seiner Archivierung bereits voll durchsuchbar zu haben.
P.S.: Hatten wir eigentlich schon den Aspekt der mehrdeutigen Adressie-
rungen des URL-Universums in diesem Zusammenhang?
Ja Jugend/Design-Sünden machen die Sache nicht einfacher ;-)
Jetzt im Ernst: mehrdeutige Adressierungen müssen beim durchsuchen
auf ein Standardformat normiert und so abgelegt werden.
Erst beim Durchsuchen? Nicht vielleicht schon beim Archivieren?
PS: Find ich gut dass man mit dir solche theoretischen Diskussionen führen
kann! :)
Danke, gleichfalls. :-)
Verglichen mit </faq/#Q-32> sind solche Threads eine echte Entspannung.
Viele Grüße
Michael
Hi Michael,
- ... welches die Monats-Unterteilung irgendwie versteht (aus Performance-
gründen würde ich eine statische Tabelle nehmen und nicht den Archivbaum
parsen) und selbst wiederum eine HTTP-redirection auf den tatsächlichen
URL ausgibt.
Da man eh eine Indexdatei für die Archivtopologie aufbauen müßte, könnt
mans da gleich miterschlagen.
Eher die Frage, wie man es mit vernüftigem Wartungsaufwand hin bekommt.
(Das CGI-Skript könnte beispielsweise seine Konfigurationstabelle selbst
warten, wenn ein Zugriff auf einen Archiv-Monat kommt, der in dieser
Tabelle noch nicht vorhanden ist - der erste, der diesen Zugriff macht,
'bezahlt' für alle Nachfolger mit. Das Skript muß dann natürlich Schreib-
zugriffe gegen sich selbst synchronisieren.)
Mit Wartung meinste jetzt das updaten der Indexdatei.
Hmm rekapitulieren, wenn folgende Probleme auf einen Streich erledigt werden sollen:
1. Broken Links zu mittlerweile archivierten Postings!
2. Suche der Links auf archivierte Postings.
3. Suche der Links auf Selfhtml-Kapitel.
brauchen wir Indexdateien mit folgenden infos:
m=message (=posting)
t=thread
für Postings:
m-id | t-id | t-startdatum | liste refernzierender m
für Selfhtml:
URL-inklusive Anchor in V8| Alias in V<8| liste referenzierender m
(wobei letzteres auch in JS-lesbarem -Format vorliegen sollte, um
offline funktionieren zu können)
so wie ich das sehe gibts 3 Ansätze:
1. Das Forumsskript trägt Links in die Indexdatei ein
2. Erst beim archivieren werden Links in die Indexdatei eingetragen
3. In Intervallen wird mit der Archivsuche die Indexdatei
aktualisiert.
(jedesmal müssen die Links dabei normiert werden)
Schritt 3 ist m.E. zuerst zu realisieren, weil die Suche zum eine
fast alles bereits erschlägt und zwotens sowieso die alten Postings
im Archiv verarbeitet werden muessen. Innerhalb der Updateintervalle
gibts dann aber Lücken! Die Entscheidung ob 1. oder 2. würd ich
aufschieben.
Eine Suche nach dem String /selfhtml/ in allen Archiven ergab rund
2000 Treffer in <4 sec.
/archiv/ waren insgesamt nur 500 Treffer.
<träum>Delux waere noch wenn dann so ein Graph der Linkbeziehungen
gezeichnet würde, am besten interaktiv wie diese "Matrizen" bei
wissen.de ;-) </träum>
Mit welcher Wahrscheinlichkeit würde dieser Graph denn planar bzw. sinnvoll
in 2D darstellbar?
Sinnvolle Darstellung wird da
1. durch Begrenzung auf enge Nachbarn erreicht (Anzahl regelbar) und
2. durch interaktives Verschieben der Knoten durch den User.
Realisiert mit Javaaplet, mehr weiß ich leider auch nicht.
z.B.! Allerdings wuerde ich aus Performancegruenden dafuer eigene
Indexdateien generieren. Es reichen doch zwei Spalten
Referenzierter Link | Liste der referenzierenden Postings
Ja, aber bei inkompatiblem Indexformat mußt Du ein eigenes Zugriffs-Skript
schreiben. Bei kompatiblem nicht.
Insofern würde ich dann ggf. zwar separate Indexdateien erzeugen wollen,
aber nicht benötigte Spalten leer lassen.
Macht Sinn, aber war nicht eh ne neue Suche in der mache?
Also wenn ich das autark am SELFteam vorbei realisieren wollte, würd ich deine
Suchmaschine mit entsprechenden REgExp füttern, auf "Ausführliche Trefferanzeige"
gehen und basta. (das hab ich aber nicht vor)
Keinen site grabber auf den jeweiligen Archiv-Monat?
Hmm du meinst den ganzen Monat runterladen? (In 90% der Fälle
sind die Links im zitierten Bereich gehighlighted) Da nur ein Bruchteil
der Postings überhaupt links enthalten, reicht es nur diese nach der Suche
anzufordern!(In 90% der Fälle sind die Links eh im Zitatbereich
der Suchergebnisses vorhanden, d.h. hier hätte man schon ein gutes suboptimales
Ergebnis)
Wann soll diese Information jeweils aktualisiert werden?
Da das Archiv in Monatsquanten strukturiert ist würde ich Monatsschritte
vorschlagen!
Das ist natürlich sehr viel seltener als das Ideal, einen Beitrag im Moment
seiner Archivierung bereits voll durchsuchbar zu haben.
Es ist doch eh angekündigt das die neue Forumssuche aktuelle Postings
miterfasst, spricht dafür gleich Variante 1 der Indexgenerierung mitzuerschlagen.
Jetzt im Ernst: mehrdeutige Adressierungen müssen beim durchsuchen
auf ein Standardformat normiert und so abgelegt werden.
Erst beim Durchsuchen? Nicht vielleicht schon beim Archivieren?
Kaputte referenzen sind doch schon zu hauf archiviert. Wenn die
wenigsten dank Indexdatei sauber umgeleitet werden, hätte man das
Problem wenigstens abgedeckt.
Ich fänds am saubersten wenns nur eine normierte/transparente Adressierung
gäbe:
sowas wie http://forum.de.selfhtml.org/?m=20449
muß ausreichen um das Teil zu finden egal ob archiviert oder nicht.
Das Ideal das das Archiv runtergeladen werden kann ist doch bereits aufgegeben worden, oder?
(Wer weiß ob das Archiv in Zukunft noch in Monatsschritten abgelegt werden kann?)
Viele Grüße
Rolf
Hi Rolf,
Mit Wartung meinste jetzt das updaten der Indexdatei.
Ja.
Hmm rekapitulieren, wenn folgende Probleme auf einen Streich erledigt werden sollen:
- Broken Links zu mittlerweile archivierten Postings!
- Suche der Links auf archivierte Postings.
- Suche der Links auf Selfhtml-Kapitel.
brauchen wir Indexdateien mit folgenden infos:
In diesem Detaillierungsgrad solltest Du das Ergebnis unbedingt bei
SourceForge abladen. Mein bug report behandelt ja etwas Ähnliches.
so wie ich das sehe gibts 3 Ansätze:
- Das Forumsskript trägt Links in die Indexdatei ein
- Erst beim archivieren werden Links in die Indexdatei eingetragen
- In Intervallen wird mit der Archivsuche die Indexdatei
aktualisiert.
Siehe meinen bug report: Aufgrund der unvorhersehbaren Reihenfolge der
dynamisch ausgelösten Thread-Archivierungsvorginge funktioniert leider
nichts von 1. und 2. ohne zusätzliche Verwaltungslogik, denke ich.
Macht Sinn, aber war nicht eh ne neue Suche in der mache?
Eben. Deshalb SourceForge - die müssen eh das plugin-API darauf abstimmen.
Also wenn ich das autark am SELFteam vorbei realisieren wollte, würd ich deine
Suchmaschine mit entsprechenden REgExp füttern, auf "Ausführliche Trefferanzeige"
gehen und basta. (das hab ich aber nicht vor)
Keinen site grabber auf den jeweiligen Archiv-Monat?
Hmm du meinst den ganzen Monat runterladen?
Ich meine "das gesamte Archiv spiegeln, mit minimalem Traffic".
Quasi einen "caching archive beautifier".
Es ist doch eh angekündigt das die neue Forumssuche aktuelle Postings
miterfasst, spricht dafür gleich Variante 1 der Indexgenerierung
mitzuerschlagen.
Es wäre ein Wunsch von mir.
Von "angekündigt" weiß ich nicht wirklich etwas ...
Jetzt im Ernst: mehrdeutige Adressierungen müssen beim durchsuchen
auf ein Standardformat normiert und so abgelegt werden.
Erst beim Durchsuchen? Nicht vielleicht schon beim Archivieren?
Kaputte referenzen sind doch schon zu hauf archiviert.
Altlasten wegen inkompatiblen Änderungen hätten durch Konverter repariert
werden können.
Bezüglich Tippfehlern bei Eingaben hätte sowohl ein Posting-Previewer als
auch ein online-HTTP-HEAD-Check auf den URL die broken-link-Anzahl des
Archivs drastisch reduzieren können. Beides sind offene feature requests.
Ich fänds am saubersten wenns nur eine normierte/transparente Adressierung
gäbe:
sowas wie http://forum.de.selfhtml.org/?m=20449
muß ausreichen um das Teil zu finden egal ob archiviert oder nicht.
Ich würde sogar auf relative Adressierung herunter gehen.
Das Ideal das das Archiv runtergeladen werden kann ist doch bereits
aufgegeben worden, oder?
Ein site grabber bekommt es mühelos.
Es wird nur nicht mehr der Service supported, fertige ZIP files anzubieten.
Viel Grüße
Michael
Hi Michael
In diesem Detaillierungsgrad solltest Du das Ergebnis unbedingt bei
SourceForge abladen. Mein bug report behandelt ja etwas Ähnliches.
Hmm ... die Backlinkgeschichte ist ja nun kein Bugreport, außerdem wollt
ich das erst mal mit dir ausdiskutiert haben. An einigen Stellen sind noch
Fragezeichen. Allerdings besteht die Gefahr das dieser Thread nicht kaputtarchiviert wird...
so wie ich das sehe gibts 3 Ansätze:
- Das Forumsskript trägt Links in die Indexdatei ein
- Erst beim archivieren werden Links in die Indexdatei eingetragen
...
Siehe meinen bug report: Aufgrund der unvorhersehbaren Reihenfolge der
dynamisch ausgelösten Thread-Archivierungsvorginge funktioniert leider
nichts von 1. und 2. ohne zusätzliche Verwaltungslogik, denke ich.
Ich geh implizit davon aus dass das mod-rewrite realisiert wird, dann
brauchst man halt keine Extra-Verwaltungslogik mehr, die steckt in der
Umleitung bzw. im Normieren.
Hmm du meinst den ganzen Monat runterladen?
Ich meine "das gesamte Archiv spiegeln, mit minimalem Traffic".
Quasi einen "caching archive beautifier".
? Erläuter mir mal kurz den Unterschied!
Es ist doch eh angekündigt das die neue Forumssuche aktuelle Postings
miterfasst, spricht dafür gleich Variante 1 der Indexgenerierung
mitzuerschlagen.
Es wäre ein Wunsch von mir.
Von "angekündigt" weiß ich nicht wirklich etwas ...
"Durchsuchbarkeit auch des aktuellen Forums, also der noch nicht archivierten Threads. "
http://forum.de.selfhtml.org/faq/#Q-26
Jetzt im Ernst: mehrdeutige Adressierungen müssen beim durchsuchen
auf ein Standardformat normiert und so abgelegt werden.
Erst beim Durchsuchen? Nicht vielleicht schon beim Archivieren?
Kaputte referenzen sind doch schon zu hauf archiviert.
Altlasten wegen inkompatiblen Änderungen hätten durch Konverter repariert
werden können.
OK, sagen wir zumindest beim durchsuchen, idealerweise bereits beim archivieren.
Bezüglich Tippfehlern bei Eingaben hätte sowohl ein Posting-Previewer
... würde sinn machen
als auch ein online-HTTP-HEAD-Check
... ne besonders effektive Methode im HTTP um Links zu validieren ?
auf den URL die broken-link-Anzahl des Archivs drastisch reduzieren können. Beides sind offene feature requests.
Ich fänds am saubersten wenns nur eine normierte/transparente Adressierung
gäbe:
sowas wie http://forum.de.selfhtml.org/?m=20449
muß ausreichen um das Teil zu finden egal ob archiviert oder nicht.
Ich würde sogar auf relative Adressierung herunter gehen.
Das Ideal das das Archiv runtergeladen werden kann ist doch bereits
aufgegeben worden, oder?
Ein site grabber bekommt es mühelos.
Es wird nur nicht mehr der Service supported, fertige ZIP files anzubieten.
Gut wenn man das Archiv Mirrorn will ohne Links umleiten zu müssen, dann
gehören die im Archiv-Format abgelegt.
Ich hab nie versucht dass Archiv runterzuladen, würd ich allerdings in der
Branche arbeiten, hätt ichs wohl auf CD oder Laptop stets dabei.
Viel Grüße
Rolf
PS: Die Googlediskussion mit dem Pageranking oben, verdeutlicht wieder
wieviel Informationsgehalt doch in der Linktopologie steckt. Man könnte
also deine Suche noch um ein Ranking verbessern. Reizvoll?
Hi Rolf,
Hmm du meinst den ganzen Monat runterladen?
Ich meine "das gesamte Archiv spiegeln, mit minimalem Traffic".
Quasi einen "caching archive beautifier".
? Erläuter mir mal kurz den Unterschied!
Deine Aussage beschreibt einen Befehl.
Meine Aussage beschreibt einen Algorithmus.
Von "angekündigt" weiß ich nicht wirklich etwas ...
"Durchsuchbarkeit auch des aktuellen Forums, also der noch nicht archivierten Threads. "
http://forum.de.selfhtml.org/faq/#Q-26
Oh, ja. Ich sollte mal wieder die FAQ lesen.
Altlasten wegen inkompatiblen Änderungen hätten durch Konverter repariert
werden können.
OK, sagen wir zumindest beim durchsuchen, idealerweise bereits beim archivieren.
<belief class="religious">index once, search any time.</belief>
Also: Schöne den Sucher, quäle den Indexer.
Bezüglich Tippfehlern bei Eingaben hätte sowohl ein Posting-Previewer
... würde sinn machen
als auch ein online-HTTP-HEAD-Check
... ne besonders effektive Methode im HTTP um Links zu validieren ?
Ich weiß nicht, ob das wirklich effektiv ist.
Es wäre jedenfalls einfach, und es würde triviale Tippfehler erkennen.
Gut wenn man das Archiv Mirrorn will ohne Links umleiten zu müssen, dann
gehören die im Archiv-Format abgelegt.
In welchem Format Du Deine Kopie anlegst, ist Deine Sache.
(Die Suchmaschinen-Indexdateien sind letztlich auch nur vorverarbeitete Kopien.)
Ich hab nie versucht dass Archiv runterzuladen, würd ich allerdings in der
Branche arbeiten, hätt ichs wohl auf CD oder Laptop stets dabei.
Ich nicht - ich habe eine WWW-Zugang ...
PS: Die Googlediskussion mit dem Pageranking oben, verdeutlicht wieder
wieviel Informationsgehalt doch in der Linktopologie steckt. Man könnte
also deine Suche noch um ein Ranking verbessern. Reizvoll?
Man könnte meine Suche um vieles verbessern.
Ranking war eine ganz uralte Idee, die Frank Schönmann schon immer wollte.
Nur war es eigentlich nicht vorgesehen, sämtliche Treffer im Speicher zu
halten und sie zu sortieren. Eigentlich wollte ich die Treffer direkt
raus streamen.
Andererseits gab es früher Indexdateien nur "falsch herum" sortiert, als
ich keinen Zugriff auf den Schwanzabschneider hatte. Also mußte ich eben
doch alles puffern und invertieren, weil spätere Postings m. E. inhaltlich
besser als frühere sind (sie können deren Erkenntnisse nutzen und auf sie
linken, ihre Fehler aber korrigieren). Ist das nicht auch ein (primitives)
Ranking? ;-)
Das könnte man heute abschalten, wenn man RAM sparen wollte ... dann käme
auch der erste Hit viel eher. Für den AMD-Kinderwagen hätte sich das auch
gelohnt - für den heutigen Ferrari nicht mehr wirklich ...
Viele Grüße
Michael
Hi Michael,
Quasi einen "caching archive beautifier".
Meine Aussage beschreibt einen Algorithmus.
Ja, und welchen nun?
OK, sagen wir zumindest beim durchsuchen, idealerweise bereits beim archivieren.
<belief class="religious">index once, search any time.</belief>
Also: Schöne den Sucher, quäle den Indexer.
Ja es gibt nix über ne gute Tabelle ...
als auch ein online-HTTP-HEAD-Check
... ne besonders effektive Methode im HTTP um Links zu validieren ?
Ich weiß nicht, ob das wirklich effektiv ist.
Kannst du's mir kurz erläutern?
Gut wenn man das Archiv Mirrorn will ohne Links umleiten zu müssen, dann
gehören die im Archiv-Format abgelegt.
In welchem Format Du Deine Kopie anlegst, ist Deine Sache.
(Die Suchmaschinen-Indexdateien sind letztlich auch nur vorverarbeitete Kopien.)
Meine Kopie des Archivs? Ich will keine! Wie soll ichs denn offline
durchsuchen? Obwohl ich hab da eine Vollindex-JS-Suchmaschiene geschrieben ... ;)
Ich hab nie versucht dass Archiv runterzuladen, würd ich allerdings in der
Branche arbeiten, hätt ichs wohl auf CD oder Laptop stets dabei.
Ich nicht - ich habe eine WWW-Zugang ...
Tja die Frage war wieviel Aufwand man in die Reparatur der Links im Archiv
steckt. Wenn selbst der Entwickler der Suchmaschine keine Downloads macht,
kann man sich auch gleich aufs Redirecting am Server beschränken.
PS: Die Googlediskussion mit dem Pageranking oben, verdeutlicht wieder
wieviel Informationsgehalt doch in der Linktopologie steckt. Man könnte
also deine Suche noch um ein Ranking verbessern. Reizvoll?
Man könnte meine Suche um vieles verbessern.
Ranking war eine ganz uralte Idee, die Frank Schönmann schon immer wollte.
Mal sehen womit uns die neue Suche überrascht ;)
tschoe
Rolf
Hi Michael
Hmm... wir sollten vielleicht kürzere aber dafür frequentere Postings abschicken!
Tschö
Rolf