PDF Extraction du Texte à l'Approche de l'Utilisation de l'OCR
Personne n'a tenté d'extraire du texte à partir d'un fichier PDF à l'aide d'un ROC de la bibliothèque et Java? Qu'avez-vous trouvé la plus fiable de la bibliothèque pour l'extraction du texte. La plupart des approches que j'ai vu (tesseract, GOCR) sont des bibliothèques C qui aurait besoin d'un peu JNI code à écrire.
Je suis familier avec pdfbox, qui est maintenant un Apache de l'incubateur de projet à la version 0.8.x, mais c'est l'extraction du texte n'est pas toujours exactes. Je suis à la recherche d'une approche alternative qui est un peu plus fiable.
Je n'ai pas essayé Asprise JavaPDF pourtant, dans le processus d'essayer ça, mais je voulais en savoir plus sur le ROC approche (si c'est possible).
Toute aide serait appréciée.
- Êtes-vous à l'aide d'un structurés PDF? Si vous êtes, vous avez la possibilité de JAVA pour récupérer le texte du document PDF de métadonnées.
- Non, pas tous les PDF sont structurés.
Vous devez vous connecter pour publier un commentaire.
Si vous avez une base de texte PDF, je recommanderais fortement PDFTextStream. Ce n'est pas gratuit, mais l'octroi de licences est raisonnable, et il est beaucoup beaucoup mieux que PDFBox. PDFBox étouffe sur beaucoup de fichiers PDF qui sont générés par les nouveaux outils, et n'est pas trop cohérent sur des fichiers Pdf il peut gérer. PDFTextStream traite tous les PDF que j'ai jeter à elle, y compris les fichiers Pdf avec embedded images PNG, qui PDFBox ne peut pas faire.
Si vous interpeler le PDFTextStream les gens à ajouter de l'OCR, ils peuvent écouter jusqu'.
Nous utilisons ABBYY FineReader Engine 11. Ils ont wrapper java.
Pour:
Contre:
Il en coûte. Vous devez acheter la licence de développeur et de licence de l'utilisateur final.
Et il est EXTRÊMEMENT lent.
Si vous voulez extraire OCR de texte PDF vous pouvez avoir à le convertir en une image d'abord.
Vous pouvez utiliser Java wrappers de Tesseract - tesjeract ou Tess4J - pour exécuter l'OCR. Toutefois, pour les fichiers PDF, vous aurez besoin de les convertir à l'image (PNG ou TIFF) d'abord, avant d'alimenter le moteur d'OCR.
VietOCR appels Tesseract exécutable pour effectuer l'extraction de texte. Il utilise GhostScript faire PDF-to-image conversion.