PDF Extraction du Texte à l'Approche de l'Utilisation de l'OCR

Personne n'a tenté d'extraire du texte à partir d'un fichier PDF à l'aide d'un ROC de la bibliothèque et Java? Qu'avez-vous trouvé la plus fiable de la bibliothèque pour l'extraction du texte. La plupart des approches que j'ai vu (tesseract, GOCR) sont des bibliothèques C qui aurait besoin d'un peu JNI code à écrire.

Je suis familier avec pdfbox, qui est maintenant un Apache de l'incubateur de projet à la version 0.8.x, mais c'est l'extraction du texte n'est pas toujours exactes. Je suis à la recherche d'une approche alternative qui est un peu plus fiable.

Je n'ai pas essayé Asprise JavaPDF pourtant, dans le processus d'essayer ça, mais je voulais en savoir plus sur le ROC approche (si c'est possible).

Toute aide serait appréciée.

  • Êtes-vous à l'aide d'un structurés PDF? Si vous êtes, vous avez la possibilité de JAVA pour récupérer le texte du document PDF de métadonnées.
  • Non, pas tous les PDF sont structurés.
InformationsquelleAutor Jon | 2009-04-22