Extraction de texte à partir brouillé PDF
J'ai un fichier PDF avec de précieuses informations textuelles.
Le problème est que je ne peut pas extraire le texte, tout ce que j'obtiens est un tas de brouillage des symboles. La même chose se passe si je l'ai copier et coller le texte à partir du lecteur de PDF vers un fichier texte. Même Fichier -> Enregistrer sous texte dans Acrobat Reader échoue.
J'ai utilisé tous les outils que je pourrais obtenir mes mains sur, et le résultat est le même. Je crois que cela a quelque chose à voir avec l'incorporation de polices, mais je ne sais pas de quoi exactement?
Mes questions:
- Ce qui est le coupable de cette étrange texte fausser?
- Comment extraire le contenu du texte à partir du fichier PDF (par programme, avec un outil, de manipuler les bits directement, etc.)?
- Comment fixer le fichier PDF afin de ne pas corrompre les sur la copie?
Puissé-je voir le fichier PDF?
J'ai retravaillé la question, car il peut convenir parfaitement, en effet, les fichiers PDF sont un format de fichier commun pour automatisé d'extraction de texte, et les réponses déjà parfaitement réponses procédure de programmation pour vérifier ce problème et de le corriger (je peux aussi ajouter une réponse avec un extrait de code pour faire de l'OCR). Je vote pour rouvrir la question, comme il peut s'avérer utile à d'autres développeurs.
J'ai retravaillé la question, car il peut convenir parfaitement, en effet, les fichiers PDF sont un format de fichier commun pour automatisé d'extraction de texte, et les réponses déjà parfaitement réponses procédure de programmation pour vérifier ce problème et de le corriger (je peux aussi ajouter une réponse avec un extrait de code pour faire de l'OCR). Je vote pour rouvrir la question, comme il peut s'avérer utile à d'autres développeurs.
OriginalL'auteur SNAG | 2012-08-29
Vous devez vous connecter pour publier un commentaire.
Certains fichiers PDF sont des produits sans information spéciale qui est crucial pour le succès de l'extraction de texte à partir d'eux. Même par les outils Adobe. Fondamentalement, ces fichiers ne contiennent pas de glyphe à caractère cartographie de l'information.
Fichiers sera affiché et imprimé très bien (étant donné que les formes des personnages sont bien définis), mais le texte d'eux ne peuvent pas être correctement copié /extrait (car il n'y a pas d'information au sujet de la signification de servir les glyphes/formes).
Par exemple, Distiller produit de tels fichiers lors de la "plus Petite Taille de Fichier" preset est utilisé.
Autres que la ROC il n'y a pas d'autre moyen de récupérer le texte à partir de ces fichiers, j'en ai peur.
Complétant l'original de la réplique
L'original de la réplique mentionné le "informations sur les sens de l'utilisé glyphes/formes". Ces informations doivent être contenues dans un fichier PDF structure appelée
/ToUnicode
table. Une telle table est nécessaire pour chaque police, qui est intégré en tant que sous-ensemble et les usages non-standard (Custom
) codage.Afin d'évaluer rapidement les chances de extractibilité de contenu de texte, vous pouvez utiliser le
pdffonts
utilitaire de ligne de commande. Cette affiche sous forme de tableau, une série d'articles au sujet de chaque police de caractères utilisée par le PDF. La présence d'un/ToUnicode
tableau est indiqué en en-tête de colonneuni
.Quelques exemples de sorties:
La
good.pdf
permet d'extraire le contenu de texte pour les deux polices correctement, parce que les deux polices ont un accompagnement/ToUnicode
table.Pour la
bad1.pdf
et labad2.pdf
l'extraction de texte réussit que pour l'un des deux polices, et ne parvient pas pour l'autre, parce qu'une police a un/ToUnicode
table.J', Kurt Pfeifle, ont récemment créé un série de codée à la main les fichiers PDF de démontrer l'influence de l'existant, buggy, manipulés ou manquant
/ToUnicode
tables dans le fichier PDF code source. Ces fichiers Pdf sont largement commenté et apte à être exploré à l'aide d'un éditeur de texte. Au-dessus depdffonts
sortie des exemples ont été créés avec l'aide de ces codée à la main les fichiers. (Il y a un peu plus de fichiers Pdf montrant des résultats différents, dont un lecteur intéressé peut se veulent explorer...)J'ai upvoted votre réponse ainsi que l'ont complété avec quelques infos. J'espère que c'est acceptable pour vous 🙂
J'ai également voté pour ré-ouvrir l'OP (qui a été fermé pour une raison obscure).
Bien sûr, grâce à ce supplément.
Comment, dans ce cas, auriez-vous l'extrait le contenu de l'extrait ou de polices et de les appliquer à un contenu extrait sans polices?
OriginalL'auteur Bobrovsky
Je suis allé à beaucoup de gens pour obtenir de l'aide et de l'OCR est la seule solution à ce problème
j'aime la façon dont fou que la solution est.. :)))))
qu'est-ce que l'OCR. u pourrait expliquer un peu. J'ai le même problème.
la reconnaissance optique de caractères. J'ai utilisé github.com/tesseract-ocr/tesseract
OriginalL'auteur SNAG
J'ai eu le même problème. Téléchargement Google Drive, l'ouverture avec Google Docs et de copier le texte à partir de là a fonctionné pour moi.
A travaillé pour moi. Cette réponse semble plus pratique que le ROC réponses (sauf lors de la construction d'une sorte d'automatisation). (Chrome méthode de gsziszi ne fonctionne pas pour moi).
Pourriez vous s'il vous plaît faire votre commentaire une réponse? Ça marche et c'est évidemment plus pratique que l'utilisation de l'OCR. Merci!
aussi, cette question est fermée, pas possible d'ajouter plus de réponses
pas de travail pour moi la façon dont vous l'a dit. j'ai essayé à la fois par l'ouverture de fichier dans le navigateur chrome de la fenêtre ainsi que par téléchargement sur google drive et d'ouverture à partir de là
OriginalL'auteur knutson