Frank Schönmann: (Archiv-Suche): Stopwortliste für Archiv-Index

Beitrag lesen

hi!

Man könnte ja mal folgendes ausprobieren:

  1. das Suchskript nehmen und 90% herauslöschen (übrig bleiben Dateianschluß und
    Zerlegung einer Indexzeile in Felder)
  2. den Textinhalt jedes Indexeintrags in Worte zerlegen
  3. die Häufigkeit dieser Worte über einen Hash speichern
  4. eine Hitparade der Worte im Archiv-Index ausgeben lassen
    Damit müßte man die mögliche Ersparnis einer solchen Operation messen können.
    Hast Du Lust dazu, Frank? :-)

So aufwendig ist das nicht:

open FILE, "index.dat";
for <FILE>
{
  my ($url, $num, $subj, $author, $date, $text) = split //;
  for (split / /, $text)
  {
    $count{$_}++;
  }
}
close FILE;

Danach kannst du den Hash %count nach den jeweiligen Werten sortieren (siehe Forumsauslese) und die Hitliste ausgeben lassen.

bye, Frank!

0 62

(ZU DIESEM FORUM) (Archiv-Suche): "Wunschkonzert"

Michael Schröpl
  1. 0

    (ZU DIESEM FORUM) (Archiv-Suche): Umlaute und Sonderzeichen

    Michael Schröpl
  2. 0

    (ZU DIESEM FORUM) (Archiv-Suche):

    Michael Schröpl
    1. 0

      (ZU DIESEM FORUM) (Archiv-Suche): Eingabesyntax für komplexe Suchanfragen / Tokenizer

      Michael Schröpl
      1. 0
        Frank Schönmann
        1. 0
          Michael Schröpl
          1. 0
            Frank Schönmann
            1. 0
              Michael Schröpl
  3. 0
    Tom
    1. 0
      Michael Schröpl
      1. 0
        Tom
        1. 0
          Michael Schröpl
  4. 0

    (ZU DIESEM FORUM) (Archiv-Suche): Datenmodell und Operatoren

    Michael Schröpl
    1. 0
      Tom
      1. 0
        Michael Schröpl
        1. 0
          Frank Schönmann
          1. 0
            Michael Schröpl
          2. 0
            Stefan Muenz
          3. 0

            (Archiv-Suche): Stopwortliste für Archiv-Index

            Michael Schröpl
            1. 0
              Frank Schönmann
    2. 0

      (ZU DIESEM FORUM) (Archiv-Suche) Operatoren: "+" (MUST), "-" (NOT) und " " (CAN)?

      Michael Schröpl
      1. 0
        Stefan Muenz
        1. 0
          Frank Schönmann
          1. 0

            (ZU DIESEM FORUM) (Archiv-Suche) Limitierung und Sortierung von Treffern

            Michael Schröpl
          2. 0
            Stefan Muenz
            1. 0
              Frank Schönmann
    3. 0

      (ZU DIESEM FORUM) (Archiv-Suche): Operatoren MUST und NOT implementiert

      Michael Schröpl
  5. 0

    (ZU DIESEM FORUM) (Archiv-Suche): Case-Sensitivität

    Michael Schröpl
    1. 0
      Wilhelm
      1. 0
        Tom
        1. 0
          wilhelm
          1. 0

            (ZU DIESEM FORUM) (Archiv-Suche): Case-Sensitivität ist implementiert

            Michael Schröpl
            1. 0
              Swen
      2. 0
        Michael Schröpl
    2. 0
      Michael Schröpl
  6. 0

    (ZU DIESEM FORUM) (Archiv-Suche): Qualität

    nikita
    1. 0
      Michael Schröpl
  7. 0
    Swen
  8. 0
    Wasser
    1. 0
      Michael Schröpl
      1. 0
        Wasser
        1. 0

          (Archiv-Suche) Vorschlag

          Wasser
          1. 0
            Michael Schröpl
            1. 0
              Frank Schönmann
  9. 0
    Calocybe
    1. 0
      Michael Schröpl
      1. 0
        Stefan Muenz
      2. 0
        Calocybe
        1. 0
          Stefan Muenz
  10. 0
    Stefan Muenz
    1. 0
      Michael Schröpl
      1. 0
        Stefan Muenz
        1. 0
          Michael Schröpl
          1. 0
            Stefan Muenz
        2. 0
          Calocybe
          1. 0
            Michael Schröpl
  11. 0
    wilhelm
    1. 0
      Michael Schröpl
      1. 0
        Michael Schröpl
      2. 0
        wilhelm
        1. 0
          Michael Schröpl
  12. 0
    Swen