Tobi: Search Engine fuer PDF Files

Hallo,

ich bin gerade dabei ein PDF Archiv anzulegen mit searchable PDF Dateien (ca. 100.000 pages).

Dieses Archiv soll ueber das Web verfuegbar sein und mit einer eigenen Suchmaschine ausgestattet sein. Kann mir einer eine Suchmaschine fuer das Archiv empfehlen? Ich weiss, dass ich MS Indexing Service verwenden kann, aber aufgrund der Abhaengigkeit von Windows Plattform und der Sicherheitsluecken wuerde ich gerne auf eine andere Suchmaschine zurueckgreifen....Ich wuerde eine gute PHP Suche favorisieren moeglichst ohne zusaetzlichen Schnickschnack (CURL, MySQL DB etc.) vorausgesetzt.

Danke fuer Eure Hilfe!
-Tobi

  1. Hi!

    Guck mal ob hier was für dich dabei ist: http://www.google.com/apis/

    Gruß Herbalizer

  2. Hallo,

    ich bin gerade dabei ein PDF Archiv anzulegen mit searchable PDF Dateien (ca. 100.000 pages).

    Dieses Archiv soll ueber das Web verfuegbar sein und mit einer eigenen Suchmaschine ausgestattet sein. Kann mir einer eine Suchmaschine fuer das Archiv empfehlen? Ich weiss, dass ich MS Indexing Service verwenden kann, aber aufgrund der Abhaengigkeit von Windows Plattform und der Sicherheitsluecken wuerde ich gerne auf eine andere Suchmaschine zurueckgreifen....Ich wuerde eine gute PHP Suche favorisieren moeglichst ohne zusaetzlichen Schnickschnack (CURL, MySQL DB etc.) vorausgesetzt.

    Danke fuer Eure Hilfe!
    -Tobi

    1. Na super,

      Das Forum hat sich verschluckt ;-) und meine Posting dazu auch.

      Dieses Archiv soll ueber das Web verfuegbar sein und mit einer eigenen Suchmaschine ausgestattet sein. Kann mir einer eine Suchmaschine fuer das Archiv empfehlen?

      Verity kann das, AltaVista und Google auch.

      Grüße
      Thomas

  3. Hallo Tobi,

    http://www.mnogosearch.org
    http://www.htdig.org

    bieten beide die Möglichkeit, PDFs zu durchsuchen, wenn man einen externen Parses dafür einbindet (und den gibts unter Unix kostenlos), und benötigen keine Datenbank. Mit PHP allein wirst Du nicht glücklich werden, Du brauchst ein externes Modul, daß Dir den Text aus den PDFs extrahiert.

    Viele Grüße
    Stephan