PHP-Bibliothek für OCR (Optical character recognition) / Texterkennung in Grafiken / PDFs von Mitleser, 06.06.2016 12:47

PHP-Bibliothek für OCR (Optical character recognition) / Texterkennung in Grafiken / PDFs

Michael 06.06.2016 12:42

Hallo zusammen,

bin auf der Suche nach einer OCR-Bibliothek für PHP oder notfalls auch für eine andere Server-Script-Sprache (Java / C# etc. wäre da eher ungünstig), die am Ende auf einem landläufigen Shared Host-Server (z.B. von all-inkl oder hosteurope) laufen soll.

Damit soll es möglich sein, mit möglichst hohen Trefferquoten die Textinformation aus eingescannten Dokumenten (als Grafiken gespeichert) bzw. aus PDFs mit solchen eingescannten Dokumenten (als Grafiken gespeichert) zu extrahieren. Die Bibliothek darf auch was kosten.

Kann da jemand was einigermaßen Zeitgemäßes, das auch noch gepflegt / weiterentwickelt wird, empfehlen, womit er seit Längerem arbeitet?

Über Google such ich natürlich schon auch, aber mir geht es da vor allem noch um Erfahrungswerte. (Wenn in einem DIN A4-Scan mittelmäßiger Qualität am Ende rund sieben Buchstaben erkannt werden, bringt das Ganze natürlich kaum was.)

Gruß, Michael

Beitrag melden

– Informationen zu den Bewertungsregeln

PHP-Bibliothek für OCR (Optical character recognition) / Texterkennung in Grafiken / PDFs
Mitleser 06.06.2016 12:47

php
– Informationen zu den Bewertungsregeln
https://github.com/tesseract-ocr/tesseract

Habe ich vor einiger Zeit mal angetestet - das brachte ziemlich gute Ergebnisse bei DIN A4-Scans.
Beitrag melden

–
Informationen zu den Bewertungsregeln
PHP-Bibliothek für OCR (Optical character recognition) / Texterkennung in Grafiken / PDFs
Google weiß alles 06.06.2016 16:47

php
– Informationen zu den Bewertungsregeln
bin auf der Suche nach einer OCR-Bibliothek für PHP oder notfalls auch für eine andere Server-Script-Sprache (Java / C# etc. wäre da eher ungünstig), die am Ende auf einem landläufigen Shared Host-Server (z.B. von all-inkl oder hosteurope) laufen soll.

Im Hinblick auf die für OCR notwendigen Ressourcen sage ich voraus, dass Dein Ansinnen am "landläufigen Shared Host-Server" scheitern wird.
Beitrag melden

–
Informationen zu den Bewertungsregeln

SELFHTML Forum - Ergänzung zur Dokumentation Übersicht

Michael: PHP-Bibliothek für OCR (Optical character recognition) / Texterkennung in Grafiken / PDFs