PDF Analyse du Texte et des Coordonnées
Je suis actuellement en utilisant la Case PDF pour analyser un fichier pdf et je suis à essayer de comprendre comment récupérer des données à propos du texte comme la police (gras, taille, etc) et l'emplacement de la police.
Des suggestions?
OriginalL'auteur Alexis Canyon | 2011-06-20
Vous devez vous connecter pour publier un commentaire.
Après de fouiller la (difficile à trouver) PDFBox docs, j'ai trouvé ce petit bijou.
Apparemment l'un des exemples qui montre exactement comment faire tout ce que vous avez demandé. Fondamentalement, vous sous-classe
PdfTextStripper
et remplacer leprocessTextPosition
méthode. Là, vous interrogez leTextPosition
pour toutes les informations dont vous avez besoin.Référence pour l'avenir, vous pouvez trouver la javaDoc ici: http://pdfbox.apache.org/apidocs/index.html
Modifier 2018-04-02: lien d'origine est mort, mais l'exemple peut être trouvé dans la Repo SVN ici.
Cela fonctionne, mais vous devez le compiler à partir des sources PDFBox
OriginalL'auteur Mark Storer
L'un des meilleures choses pour l'extraction de texte à partir de fichiers Pdf est TET, l'extraction de texte trousse à outils. TET est une partie de la PDFlib.com la famille de produits.
PDFlib.com est Thomas Merz (l'auteur de la "PostScript et PDF Bible") de l'entreprise.
TET de première incarnation est bibliothèque. Que l'on peut probablement faire tout ce que vous voulez, y compris des informations de position sur chaque élément de texte sur la page. Oh, et il peut aussi extraire des images. Il recombine+fusionne les images qui sont fragmentés en morceaux.
pdflib.com propose également une autre incarnation de cette technologie, les TET plugin pour Acrobat. Évidemment, vous aurez besoin d'Acrobat ainsi de faire usage de cette.
Et la troisième incarnation est le PDFlib TET iFilter. C'est un outil autonome pour les stations de travail des utilisateurs. Les deux c'est gratuit (comme dans la bière) pour usage à des fins privées, à des fins non commerciales.
Enfin, TET est également livré avec un interface en ligne de commande.
TET est vraiment puissant. Meilleur que celui d'Adobe extraction de texte. Il extrait du texte pour moi, là où d'autres outils (y compris Adobe) faire cracher des ordures.
Il y A quelques mois, j'ai testé leur ordinateur de bureau autonome de l'outil et de ce qu'ils disent sur leur page web est vrai. Il a une très bonne ligne de commande. Certains de mes "problèmes" PDF fichiers de test de l'outil manipulé à mon entière satisfaction.
Cette chose, c'est ma recommandation pour chaque complexe et difficile PDF extraction de texte exigences.
TET est tout simplement génial. Il détecte les tables. À l'intérieur des tables, il identifie les cellules s'étendant sur plusieurs colonnes. Il identifie les lignes de la table et le contenu de chaque cellule du tableau séparément. Il traite très bien avec hyphenations: il élimine les traits d'union et restaure des mots complets. Il prend en charge non-ASCII langues (y compris CJK, l'arabe et l'hébreu). Lors de la rencontre des ligatures, il rétablit les caractères d'origine...
Lui donner un essai.
Je suis curieux de savoir -- avez-vous jamais eu une chance de prendre une fissure à TET?
Nope. J'ai été hors de la PDF biz peu plus d'un an.
OriginalL'auteur Kurt Pfeifle
La GetPageText fonction avec de l'extrait de l'option 3 ou 4 dans Quick PDF Library retourne un CSV chaîne choisie pour la page qui contient le texte (que ce soit des mots ou un morceau de texte) et le nom de la police, la couleur du texte, taille du texte et les coordonnées sur la page.
Remarque: c'est une bibliothèque commerciale et je travaille pour la société qui le vend.
OriginalL'auteur Rowan
Les fichiers PDF peuvent être analysées avec tabula-py, ou tabula-java.
J'ai fait un tutoriel complet sur la façon d'utiliser tabula-py sur cet article. Vous pouvez tabula dans un navigateur web tant que vous avez installé Java.
OriginalL'auteur Eric Kim