Michael N.: Indexdatei für die Archivsuche

Hallo Kollegen (speziell Ihr guten Geister, die Ihr Euch Tag und Nacht müht für das Forum zu kodieren),

erstmal ein herzliches riesiges Dankeschön.

Und dann eine knifflige Frage (für die ich eventuell auch noch geschlagen werde {Ich schrie jetzt schon AUTSCH!}):

Gibt es für die Archivsuche (altes Archiv) eine Index-Datei und in welchem Format liegt die vor (Database-Table, CSV-Liste, Datei mit fester Satzlänge), aus der man evtl. Name, E-Mail und weitere notwendige Infos herauslesen kann, wenn ja, in welchem Format kann man die bekommen (Hauptsache konvertierbar)?

An Fetz! und PAF gleichzeitig die Frage: Da die Statistik auf Selfspezial ja auf MySQL basiert, könntet Ihr eventuell mit einer Datei, die nach Euren Import-Requirements erstellt ist (z.B.: CSV oder Feste Stazlänge, oder, oder ...) (es braucht dazu ja nur Eure Spec, insofern die AltArchiv-Indexdatei die Daten hergibt) über relativ einfach die Daten in die neue Statistik importieren und ist das evtl. gewünscht oder unerwünscht?

Gleichzeitig verhänge ich (nach Erhalt der Daten und(!) der Specs und der Zustimmung von PAF und Fetz!) gegen Michael N. ein <I>, auf daß er zuhause die Konvertierung übernimmt.

Wenn Specs und Daten via URL verfügbar sind, weiß ich schon, wie ich mir die sauge. Schicken werde ich das dann an eine Adresse, die mir PAF (im Falle, der Zustimmung) gibt.

In der Hoffnung, daß ich nicht allzuviel Prügel bekomme:

Bis denndann

Michael N. (noch ohne Blessuren)

  1. Hoi,

    Und dann eine knifflige Frage (für die ich eventuell auch noch geschlagen
    werde {Ich schrie jetzt schon AUTSCH!}):

    Fuer sowas wird niemand geschlagen.

    Gibt es für die Archivsuche (altes Archiv) eine Index-Datei und in welchem

    Ja.

    Format liegt die vor (Database-Table, CSV-Liste, Datei mit fester
    Satzlänge), aus der man evtl. Name, E-Mail und weitere notwendige Infos
    herauslesen kann, wenn ja, in welchem Format kann man die bekommen
    (Hauptsache konvertierbar)?

    Es gibt solche Datei(en) im CSV-Format. Die aktuelle Suche arbeitet damit.

    Gleichzeitig verhänge ich (nach Erhalt der Daten und(!) der Specs und der
    Zustimmung von PAF und Fetz!) gegen Michael N. ein <I>, auf daß er zuhause
    die Konvertierung übernimmt.

    Viel Spass.

    Wenn Specs und Daten via URL verfügbar sind, weiß ich schon, wie ich mir
    die sauge. Schicken werde ich das dann an eine Adresse, die mir PAF (im
    Falle, der Zustimmung) gibt.

    ich weiss nicht, ob das so unbedingt eine gute Idee ist. Aus zweierlei
    Gruenden: erstens finde ich, dass die Statistik total ueberbewertet wird.
    Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
    krank. Zweitens koennte, wenn die Index-Datei irgendwo liegt, jeder mal eben
    so zig EMail-Adressen einsammeln. Letztenendes ist das aber auch nicht meine
    Entscheidung, ich kann dazu nur sagen, was ich denke.

    Gruesse aus dem schoenen LH,
     c.j.k

    1. Hallo,

      Und dann eine knifflige Frage (für die ich eventuell auch noch geschlagen
      werde {Ich schreie jetzt schon AUTSCH!}):

      Fuer sowas wird niemand geschlagen.

      Gott sei Dank.

      Gleichzeitig verhänge ich (nach Erhalt der Daten und(!) der Specs und der
      Zustimmung von PAF und Fetz!) gegen Michael N. ein <I>, auf daß er zuhause
      die Konvertierung übernimmt.

      Viel Spass.

      Bisher weiß ich ja nur, daß CSV-Dateien existieren, ich hab sie ja noch nicht.

      Wenn Specs und Daten via URL verfügbar sind, weiß ich schon, wie ich mir
      die sauge. Schicken werde ich das dann an eine Adresse, die mir PAF (im
      Falle, der Zustimmung) gibt.

      ich weiss nicht, ob das so unbedingt eine gute Idee ist. Aus zweierlei
      Gruenden: erstens finde ich, dass die Statistik total ueberbewertet wird.

      Dadurch würde Sie ja entkrampft, da die jetztige Vielposter"Stars" gegenüber zum Beispiel Stefan irgendwo nach weit hinten rutschen würden.

      Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
      krank. Zweitens koennte, wenn die Index-Datei irgendwo liegt, jeder mal eben
      so zig EMail-Adressen einsammeln.

      Deswegen hatte ich bei Threaderöffnung ja auch meine E-Mail angegeben, die E-Mail-Adressen sind innerhalb der Vielposter ja nur ein Auswertungshilfsmittel. Die URL hätte mir dann per Mail(!) gegeben werden können, ich hätte schnell die Daten gesaugt, anschließend dem entsprechenden eine Mail geschickt, daß die Seite verschwinden kann und wenn das ganze dann irgendwo ganz tief in einer für Bots und Normale User unbekannten Verzeichnis-Struktur liegt und auch nirgendwo, außer in einer Mail verlinkt, so daß man das ganze nur durch genaue Kenntnis der URL lesen kann, hat man schon für eine gewisse Sicherheit gesorgt. (OK Scan-Bots, die durchlaufende E-Mails scannen sind immer noch gefährlich, aber das sind sie auch, wenn die Datei angehängt wird.)

      Bis denndann

      Michael N.

      1. Hoi,

        Dadurch würde Sie ja entkrampft, da die jetztige Vielposter"Stars" gegenüber
        zum Beispiel Stefan irgendwo nach weit hinten rutschen würden.

        Und genau wegen dieser Einstellung halte ich das nicht fuer gut ;-)

        Gruesse aus dem schoenen LH,
         c.j.k

        1. Hallo,

          Dadurch würde Sie ja entkrampft, da die jetztige Vielposter"Stars" gegenüber
          zum Beispiel Stefan irgendwo nach weit hinten rutschen würden.

          Und genau wegen dieser Einstellung halte ich das nicht fuer gut ;-)

          Vielleicht hilft es aber auch gegen die Einstellung möglichst hoch in den Stats zu kommen indem man es beinahe unmöglich macht an Stefan und einigen anderen vorbeizuziehen und dadurch könnte dann das Ranking wieder auf das kommen, was es eigentlich sein sollte, nämlich eine Erbauung und ein Spaß und kein(!) Wettbewerb. Und dann wäre ja viel erreicht.

          Bis denndann

          Michael N.

          1. Moin!

            Vielleicht hilft es aber auch gegen die Einstellung möglichst hoch in den Stats zu kommen indem man es beinahe unmöglich macht an Stefan und einigen anderen vorbeizuziehen

            Das klappt nicht. So viele Postings gab es in der Vergangenheit nun auch wieder nicht, dass sich dieser Vorsprung nicht durch fleissiges Posten in absehbarer Zeit aufholen liese. Irgendwo muessten die Zahlen ueber das alte Archiv noch rumgammeln, keine Ahnung wo.

            So long

            --
            Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.

            1. Hoi,

              Vielleicht hilft es aber auch gegen die Einstellung möglichst hoch in den
              Stats zu kommen indem man es beinahe unmöglich macht an Stefan und einigen
              anderen vorbeizuziehen

              Das klappt nicht. So viele Postings gab es in der Vergangenheit nun auch
              wieder nicht, dass sich dieser Vorsprung nicht durch fleissiges Posten in
              absehbarer Zeit aufholen liese. Irgendwo muessten die Zahlen ueber das alte
              Archiv noch rumgammeln, keine Ahnung wo.

              Meinst du das?

              http://www.atomic-eggs.com/selfspezial/top20.gif

              Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.

              Wie wahr, wie wahr.

              Gruesse aus dem schoenen LH,
               c.j.k

            2. Irgendwo muessten die Zahlen ueber das alte Archiv noch rumgammeln,
              keine Ahnung wo.

              http://www.atomic-eggs.com/selfspezial/sstatvps.html
              http://www.atomic-eggs.com/selfspezial/top20.gif

              1. Hallo,

                Irgendwo muessten die Zahlen ueber das alte Archiv noch rumgammeln,
                keine Ahnung wo.

                http://www.atomic-eggs.com/selfspezial/sstatvps.html

                Stand Januar 2000(!).

                http://www.atomic-eggs.com/selfspezial/top20.gif

                Ist zwar Oktober 2000 und damit fast synchron zum Archiv, enthält das ganze aber nur als ".gif" und dann auch nur die ersten 20. Und mein Gedanke war es halt anhand des Alten Archiv-Indexes ein Flatfile zu machen, in dem alle Posts bis zur Schließung drin sind, welches dann wiederum von Fetz! und PAF importierbar ist.

                Bis denndann
                Michael N.

                1. Moin!

                  http://www.atomic-eggs.com/selfspezial/top20.gif
                  Ist zwar Oktober 2000 und damit fast synchron zum Archiv, enthält das ganze aber nur als ".gif" und dann auch nur die ersten 20. Und mein Gedanke war es halt anhand des Alten Archiv-Indexes ein Flatfile zu machen, in dem alle Posts bis zur Schließung drin sind, welches dann wiederum von Fetz! und PAF importierbar ist.

                  Darum ging es in meinem Posting nicht. Hast Du es ueberhaupt gelesen?

                  So long

                  --
                  Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.

                  1. Guten Morgen (09:49(CLT) Cologne Local Time ;-) )!

                    http://www.atomic-eggs.com/selfspezial/top20.gif
                    Ist zwar Oktober 2000 und damit fast synchron zum Archiv, enthält das ganze aber nur als ".gif" und dann auch nur die ersten 20. Und mein Gedanke war es halt anhand des Alten Archiv-Indexes ein Flatfile zu machen, in dem alle Posts bis zur Schließung drin sind, welches dann wiederum von Fetz! und PAF importierbar ist.

                    Darum ging es in meinem Posting nicht. Hast Du es ueberhaupt gelesen?

                    Wenn man das andere Postinggesamtvolumen zwischen den beiden Forumsversionen einrechnet, dann kannst Du mit Deiner Befürchtung durchaus Recht haben. Ich hab mir mal (auf der Basis der Statistiken ein paar Daten zusammengestellt, wobei die Monate Februar bis Oktober 2000 nicht berücksichtigt sind:

                    Periode                   | Monate | Postings | Monatsschnitt |
                    --------------------------+--------+----------+---------------+
                    Juli 1998 bis Januar 2000 |     19 |   51.041 |      2.686,37 |
                    --------------------------+--------+----------+---------------+
                    Mai 2001  bis 4.4.2002    |     11 |   83.760 |      7.606,36 |
                    --------------------------+--------+----------+---------------+

                    Wobei ich natürlich zusätzlich der Meinung bin (Leider fehlt mir der Beweis), daß die fehlende Periode, in der die Forumsversion 1 Online war die Zahlen noch "zugunsten" der Version 1 verschiebt. Ich hab anhand der Steigerung in der Gesamtpostingzahl der Top Twenty mal eine Abschätzung gemacht. Das führt dann zu folgender Tabelle:

                    Periode                       | Monate | Postings | Monatsschnitt |
                    ------------------------------+--------+----------+---------------+
                    Juli 1998 bis Januar 2000     |     19 |   51.041 |      2.686,37 |
                    ------------------------------+--------+----------+---------------+
                    Februar 2000 bis Oktober 2000 |      9 |   43.790 |      4.865,56 |*
                    ------------------------------+--------+----------+---------------+
                    Juli 1998 bis Oktober 2000    |     28 |   94.831 |      3.386,82 |*
                    ------------------------------+--------+----------+---------------+
                    Mai 2001  bis 4.4.2002        |     11 |   83.760 |      7.606,36 |
                    ------------------------------+--------+----------+---------------+
                    Gesamtforum                   |     39 |  178.501 |      4.576,95 |*
                    ------------------------------+--------+----------+---------------+

                    * Die in diesen Zeilen genannten Zahlen beruhen auf der Annnahme, daß die Gesamtzahl der Postings in den Monaten, über die keine Daten vorliegen in der gleichen Weise gestiegen sind, wie die Gesamtzahl der Postings bei den Top Twenty der "Abschlußstatistik". Der Bereich der langen Schließung (Oktober 2000 bis Mai 2001) wurde nicht berücksichtigt.

                    In der Forumsstatistik sind also noch einige weiße Flecken, die erforscht werden können, wenn denn das Zahlenmaterial komplettiert ist. Und da läßt sich dann sicher noch einiges interessantes draus ableiten (evtl. können sich dann auch Soziologen, Statistiker etc. noch kräftig in Forschungsprojekten über Internet und Internet-Gemeinschaften Dinge zutage fördern, die wiederum positiven Einfluß haben auf das Internet).

                    Bis denndann

                    Michael N.

                    NB: Ups, jetzt ist es auf einmal (10:41 CLT)

                    1. Moin moin!

                      Guten Morgen (09:49(CLT) Cologne Local Time ;-) )!

                      Nanu? Habt Ihr dort noch Winterzeit?

                      Periode                   | Monate | Postings | Monatsschnitt |
                      --------------------------+--------+----------+---------------+
                      Juli 1998 bis Januar 2000 |     19 |   51.041 |      2.686,37 |
                      --------------------------+--------+----------+---------------+
                      Mai 2001  bis 4.4.2002    |     11 |   83.760 |      7.606,36 |
                      --------------------------+--------+----------+---------------+

                      Man kann sich schon einieg Arbeit machen mit solchen Sachen... ;-)

                      Wobei ich natürlich zusätzlich der Meinung bin (Leider fehlt mir der Beweis), daß die fehlende Periode, in der die Forumsversion 1 Online war die Zahlen noch "zugunsten" der Version 1 verschiebt.

                      Ja, ist sehr anzunehmen (siehe auch unten).

                      Periode                       | Monate | Postings | Monatsschnitt |
                      ------------------------------+--------+----------+---------------+
                      Juli 1998 bis Januar 2000     |     19 |   51.041 |      2.686,37 |
                      ------------------------------+--------+----------+---------------+
                      Februar 2000 bis Oktober 2000 |      9 |   43.790 |      4.865,56 |*
                      ------------------------------+--------+----------+---------------+
                      Juli 1998 bis Oktober 2000    |     28 |   94.831 |      3.386,82 |*
                      ------------------------------+--------+----------+---------------+
                      Mai 2001  bis 4.4.2002        |     11 |   83.760 |      7.606,36 |
                      ------------------------------+--------+----------+---------------+
                      Gesamtforum                   |     39 |  178.501 |      4.576,95 |*
                      ------------------------------+--------+----------+---------------+

                      * Die in diesen Zeilen genannten Zahlen beruhen auf der Annnahme, daß die Gesamtzahl der Postings in den Monaten, über die keine Daten vorliegen in der gleichen Weise gestiegen sind,

                      "In der gleichen Weise"? In welcher Weise? Genauso linear, genauso quadratisch, genauso exponentiell? Hast Du eine Polynomfunktion 19. Grades verwendet? Oder wie hast Du das gerechnet?

                      Anhand der Message IDs im Archiv erkennt man, dass es bis Oct 2000 etwa 120000 Postings gab, nicht nur 94000.

                      In der Forumsstatistik sind also noch einige weiße Flecken, die erforscht werden können, wenn denn das Zahlenmaterial komplettiert ist.

                      Yoh, haste recht, aber warte mal noch ein bisschen. Ich bin gerade dabei, das alte HTML-Archiv in die XML-Struktur zu uebersetzen, dann werden sich die Daten viel leichter (und exakter) rausziehen lassen. Allerdings dauert es noch ne Weile, denn da ist verdammt viel Handarbeit dabei.

                      NB: Ups, jetzt ist es auf einmal (10:41 CLT)

                      Krass, he? ;-)

                      So long

                      --
                      Wenn Wahlen etwas ändern könnten, würden sie sofort verboten werden.

                    2. Hi Michael,

                      Und mein Gedanke war es halt anhand des Alten
                      Archiv-Indexes ein Flatfile zu machen, in dem
                      alle Posts bis zur Schließung drin sind, welches
                      dann wiederum von Fetz! und PAF importierbar ist.

                      dann laß Dir doch einfach die Archiv-Index-Dateien von der Self-Redaktion geben - und zwar diejenigen, die von der Portal-Suchmaschine verarbeitet werden.

                      Wobei ich natürlich zusätzlich der Meinung bin (Leider
                      fehlt mir der Beweis), daß die fehlende Periode, in der
                      die Forumsversion 1 Online war die Zahlen noch "zugunsten"
                      der Version 1 verschiebt.

                      Helfen Dir folgende Zahlen weiter?

                      Forums-Archiv 2002 (31.01 MB)
                        Forums-Archiv 2001 (30.28 MB)
                        Forums-Archiv 2000 (49.43 MB)
                        Forums-Archiv 1999 (31.17 MB)
                        Forums-Archiv 1998 ( 4.88 MB)

                      (Quelle: http://selfsuche.teamone.de/cgi-bin/such.pl)

                      Threads      Anzahl     Postings       Anzahl
                      1998 - Q3 (2M) 00001 - 00600     600   000001 - 002340   2340
                      1998 - Q4      00601 - 01571     971   002341 - 006716   4376
                      1999 - Q1      01572 - 02721    1150   006717 - 012882   6165
                      1999 - Q2      02722 - 04635    1914   012883 - 022660   9778
                      1999 - Q3      04636 - 06946    2311   022661 - 034653  11993
                      1999 - Q4      06947 - 09640    2694   034654 - 048858  14205
                      2000 - Q1      09641 - 11860    2220   048859 - 060791  11933
                      2000 - Q2      11861 - 16159    4299   060792 - 081643  20582
                      2000 - Q3      16160 - 22000    5841   081644 - 112410  30767
                      2000 - Q4 (1M) 22001 - 23488    1487   112411 - 121981   9571
                      2001 - Q1
                      2001 - Q2 (2M) 23489 - 26241    2753   121982 - 137011  15030
                      2001 - Q3 (2M) 26242 - 29340    3099   137012 - 152747? 15736?
                      (die letzte Posting-Nummer habe ich nur ungefähr - das ist die höchste Posting-Nummer des letzten archivierten Threads)

                      Quelle: http://forum.de.selfhtml.org/archiv/

                      Danach Umstellung auf neues Archiv-Format, Zahlen deshalb etwas
                      fehlerbehaftet (ich habe per Archivsuche versucht, über das
                      Datum die Thread- und Posting-Nummern zu finden - nur als
                      Richtwerte verwendbar, ein paar Stunden Abweichung möglich):

                      2001 - Q4 (2M) 00001 - 01780    1780   000001 - 010380  10380
                      2002 - Q1      01781 - 08474    6694   010381 - 046871  36491
                      2002 - Q2      08474 -                 046872 -

                      Das Posting, auf welches ich gerade antworte, ist Nr. 49080 des neuen Formats - insgesamt haben wir also vor ein paar Tagen die 200000er-Grenze überschritten.
                      (Wenn ich die genaue Zahl der Postings des alten Archivs wüßte, könnte ich die Posting-Nummer des "Jubiläums" berechnen - und die Archivsuche versteht Posting-Nummern als Suchbegriffe, egal ob für das alte oder das neue Forum-Format ...)

                      Vergleichbare Zahlen für die Postings wären auf dem Server selbst durch "wc -l" auf die Indexdateien möglich gewesen.

                      Viele Grüße
                            Michael

    2. Sup!

      Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
      krank.

      Mir ist auch aufgefallen, dass Du alles tust, um den 5ten Platz zu verteidigen ;-)
      Ich hingegen war schon mal weiter oben.

      Gruesse aus dem schoenen LH,

      Ist das *wirklich* schoen da?

      c.j.k

      Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht mehr CK? *gruebel*

      Gruesse,

      Bio

      1. Hoi,

        Das artete zwischendurch ja fast schon in Konkurrenz-Kampf aus, das ist echt
        krank.

        Mir ist auch aufgefallen, dass Du alles tust, um den 5ten Platz zu
        verteidigen ;-)

        Wohl kaum.

        Ich hingegen war schon mal weiter oben.

        Und weiter?

        Gruesse aus dem schoenen LH,

        Ist das *wirklich* schoen da?

        Komm her und verschaff dir dein eigenes Bild ;-)

        c.j.k

        Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht
        mehr CK? *gruebel*

        Ich hatte schon immer einen zweiten Vornamen ;-)

        Gruesse aus dem schoenen LH,
         c.j.k

        1. Aloha

          c.j.k

          Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht
          mehr CK? *gruebel*

          Ich hatte schon immer einen zweiten Vornamen ;-)

          Ich sehe schon, er will hier nur einen wilden spekulativen Thread auslösen á la "Wofür steht das 'j' in c.j.k". Und er lacht sich dabei 'nen Ast weil er gar keinen zweiten Vornamen hat und sich alle prügeln, ob er jetzt Jochen, Jürgen oder hmmm.... Jasmin heißt ;-)

          Ciao,

          Harry T. B. (höhö)

          1. Hoi,

            c.j.k

            Hast Du seit neuestem einen zweiten Vornamen, oder warum nennst Du Dich nicht
            mehr CK? *gruebel*

            Ich hatte schon immer einen zweiten Vornamen ;-)

            Ich sehe schon, er will hier nur einen wilden spekulativen Thread auslösen
            á la "Wofür steht das 'j' in c.j.k". Und er lacht sich dabei 'nen Ast weil er
            gar keinen zweiten Vornamen hat und sich alle prügeln, ob er jetzt Jochen,
            Jürgen oder hmmm.... Jasmin heißt ;-)

            Na klar ;-) Du hast es erfasst *fg*

            Harry T. B. (höhö)

            Tiberius? ;-)

            *scnr*

            Gruesse aus dem schoenen LH,
             C. Johannes K.