Existe-t-il une bibliothèque C ++ pour extraire le texte d'un fichier PDF tel que PDFBox for Java?

L'année dernière, j'ai fait une application en Java à l'aide de PDFBox pour obtenir le texte brut dans certains fichiers PDF et j'ai besoin de port que l'application C++ maintenant.

Je voulais savoir quel était le meilleur C++ alternative à accomplir ce dont j'ai besoin.

Je vais vous donner un exemple dans le cas où il permet de:

La plupart des fichiers ressemblera à ceci: http://www.jumbala.net/backup/league.pdf

Avec PDFBox, à l'aide de ce fichier, chaque ligne lire à la page 2 et la plupart de la page 3 serait sortie de toutes les données d'une ligne, séparés par un espace au lieu de le garder dans une grille comme il est maintenant.

De sorte que la première ligne de la page 2 ressemblerait à ceci:

FB 847 - Tremblay, Gérard 179,63 56 16167 90 268 s27 p3 669 s14 199 223 193 615

ou quelque chose comme ça car il y a des changements mineurs dans l'ordre où ils apparaissent, mais je ne m'inquiète pas à ce sujet aussi longtemps que les mêmes lignes de sortie de même puisque je viens de les analyser et de mettre les valeurs dont j'ai besoin dans différentes variables.

Alors, sachant tout cela, est-il une bibliothèque que je peux utiliser dans un programme en C++ pour obtenir des résultats similaires?

Edit: Après avoir regardé sacredFaith du lien au http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file et de l'essayer, je suis un drôle de sortie comme pour le fichier d'exemple que j'ai mentionné plus tôt:

http://www.jumbala.net/backup/league.pdf.txt

Les pièces dont j'ai réellement besoin sont en caractères bizarres au début. À l'aide d'Adobe Acrobat Reader X et en utilisant " Enregistrer sous... de Texte (accessible), j'obtiens le résultat suivant:

http://www.jumbala.net/backup/league_good.pdf.txt

Qui est environ ce que je reçois en Java à l'aide de PDFBox et ce que je veux obtenir comme résultat dans C++.

source d'informationauteur Adam Smith

c++pdf

10

Xpdf est une application C++/bibliothèque, qui comprend des outils pour extraire le texte brut à partir d'un fichier PDF.
3

Puisque c'est ce que vous cherchez : PoDoFo est la bibliothèque C++ pour analyser, lire, modifier ou créer des fichiers pdf. La bibliothèque est multi-plateforme.
2

Je n'ai jamais utilisé la suite, mais après quelques recherches sur Google j'ai trouvé ceci:

http://www.codeproject.com/Articles/7056/Code-to-extract-plain-text-from-a-PDF-file

Vous devez vous connecter pour publier un commentaire.