OCR open source [en attente]

Je suis à la recherche d'un OCR open source de la bibliothèque qui fonctionne sur Linux. J'ai besoin de ce travail pour les Png et Pdf. Surtout, je tiens à l'interface de cette bibliothèque à partir de java ou ruby. Aucune idée si il y a quelque chose de disponible?

Ce qui concerne.

source d'informationauteur Chris

12

Tesseract est un très bon moteur de ROC: https://github.com/tesseract-ocr/tesseract

Le projet a été lancé par HP Labs et est maintenant poursuivie et sponsorisé par Google (Google Livres !). Il est publié sous la licence Apache, et il tourne sur Linux. Il utilise Tiff ou Png fichiers ; pour les fichiers Pdf, vous aurez besoin de les convertir à l'un de ces formats. Je suppose qu'il n'existe pas de liaison de sorte que vous devez appeler à ce logiciel comme un sous-programme de...
1

Écriture cunéiforme est gratuit et fait un travail décent. Vous pourriez invoquer celle-ci comme un sous-programme, mais il n'y a pas de langue de liaison, que je sache. Il ne sera pas lire les fichiers Pdf directement, mais vous pouvez facilement démonter les fichiers Pdf qui sont des séquences d'images numérisées à les nourrir à écriture Cunéiforme. Il y a aussi des scripts pour rassembler les images et le texte dans un document PDF consultable.
0

Essayer tesjeractqui utilise la JNI pour appeler Tesseract OCR API.

Pour les fichiers PDF, vous aurez besoin de les convertir à l'image de la première, en utilisant GhostScript, par exemple.

Vous devez vous connecter pour publier un commentaire.