Michael: PHP-Bibliothek für OCR (Optical character recognition) / Texterkennung in Grafiken / PDFs

Hallo zusammen,

bin auf der Suche nach einer OCR-Bibliothek für PHP oder notfalls auch für eine andere Server-Script-Sprache (Java / C# etc. wäre da eher ungünstig), die am Ende auf einem landläufigen Shared Host-Server (z.B. von all-inkl oder hosteurope) laufen soll.

Damit soll es möglich sein, mit möglichst hohen Trefferquoten die Textinformation aus eingescannten Dokumenten (als Grafiken gespeichert) bzw. aus PDFs mit solchen eingescannten Dokumenten (als Grafiken gespeichert) zu extrahieren. Die Bibliothek darf auch was kosten.

Kann da jemand was einigermaßen Zeitgemäßes, das auch noch gepflegt / weiterentwickelt wird, empfehlen, womit er seit Längerem arbeitet?

Über Google such ich natürlich schon auch, aber mir geht es da vor allem noch um Erfahrungswerte. (Wenn in einem DIN A4-Scan mittelmäßiger Qualität am Ende rund sieben Buchstaben erkannt werden, bringt das Ganze natürlich kaum was.)

Gruß, Michael

  1. https://github.com/tesseract-ocr/tesseract

    Habe ich vor einiger Zeit mal angetestet - das brachte ziemlich gute Ergebnisse bei DIN A4-Scans.

  2. bin auf der Suche nach einer OCR-Bibliothek für PHP oder notfalls auch für eine andere Server-Script-Sprache (Java / C# etc. wäre da eher ungünstig), die am Ende auf einem landläufigen Shared Host-Server (z.B. von all-inkl oder hosteurope) laufen soll.

    Im Hinblick auf die für OCR notwendigen Ressourcen sage ich voraus, dass Dein Ansinnen am "landläufigen Shared Host-Server" scheitern wird.