Copier+coller du texte d'un PDF des résultats dans les ordures
Je suis en train d'écrire une thèse de Master - PNL système. J'ai un composant d'extraction.
C'est l'extraction d'un texte brut à partir de fichiers PDF. Il y a quelques fichiers PDF ne peuvent pas être extraites correctement. Extracteur (PDFBox bibliothèque) retourne une chaîne de caractères comme ceci:
"ğ xDn║si|d├gDF"Ti&cD╬lh d FÁhis~n ğ xd f«,"d ğ ffih »h"
ou
"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"
J'ai été vérifier chaque fichier qui fait de cette extraction du problème, et tous ces fichiers' texte ne peut pas être copié et collé à partir de Lecteur de PDF (Adobe Reader et FoxIt reader). Visualisez en ce lecteurs est activé, mais après la sélection de son contenu et de le copier dans le presse-papiers-je obtenir le même mal de texte (tel que décrit ci-dessus - les chaînes de pas sémantiquement correct caractères ou des chaînes de chiffres et de lettres).
Quelqu'un pourrait-il m'aider???
OriginalL'auteur Michal_R | 2010-05-28
Vous devez vous connecter pour publier un commentaire.
Si sont en mesure de réussir à sélectionner et copier le texte dans Adobe Reader -- indiqué que le document PDF contient des objets texte -- mais vous ne pouvez pas coller le texte copié dans le bloc-notes, sans elle, le regardant comme un tas d'ordures caractères, alors le problème est probablement lié à la CMap que le texte sélectionné utilise.
La spécification PDF fournit de nombreuses options pour l'affichage de le contenu textuel et l'extraction du contenu du texte. Une CMap indique la correspondance entre les codes de caractère de caractère de sélecteurs. La technique PDF souligne certains CMaps prédéfinis, mais d'autres CMaps peuvent également être intégrés.
Ma conjecture est que soit la CMap pour ce texte est corrompu ou que le PDFBox de bibliothèque n'a pas d'appuyer cette CMap. Je suggère d'essayer une autre SDK juste pour voir si vous obtenez des résultats différents.
OriginalL'auteur Rowan
Très souvent, dans de tels cas, où vous ne pouvez pas sélectionner, copier n " coller du texte à partir d'Acrobat (Reader) de la fenêtre, il y a une autre option qui fonctionne néanmoins:
Vous aurez tout le texte de toutes les pages du fichier et vous devez trouver l'endroit où vous vouliez copier ""coller initialement -- dans la mesure où il n'est pas aussi confortable que la copie directe n" coller. Mais il fonctionne de manière plus fiable....
Il travaille également avec
acroread
sur Linux (mais vous devez choisir 'Enregistrer sous...' à partir du menu fichier).Mise à jour
Vous pouvez utiliser le
pdffonts
utilitaire de ligne de commande pour obtenir un rapide coup d'analyse de la police de caractères utilisée par un PDF.Voici un exemple de sortie, ce qui démontre où un problème pour l'extraction du texte sera très probablement se produire. Il utilise l'une de ces codée à la main des fichiers PDF à partir d'un GitHub-Référentiel qui a été créé pour fournir des PDF fichiers d'exemples qui sont bien commenté et peut facilement être ouvert dans un éditeur de texte:
Comment interpréter ce tableau?
BAAAAA+
etCAAAAA+
préfixes de leurs noms, ainsi que par layes
entrées dans lesub
colonne),Helvetica
etHelvtica-Bold
.TrueType
.WinAnsi
de codage (une police d'encodage de cartes char identifiants utilisés dans le PDF de code source pour les glyphes que l'on doit tirer).Toutefois, uniquement pour les polices de
/Helvetica
il y a un/ToUnicode
table disponible dans le PDF (pour/Helvetica-Bold
il n'y a aucun), comme indiqué par layes
/no
dans leuni
-colonne).La
/ToUnicode
table est nécessaire de fournir une cartographie inverse de caractère identifiants et les codes de caractères.Un manque
/ToUnicode
table pour une police spécifique est presque toujours un bon indicateur que les chaînes de texte à l'aide de cette police ne peut pas être extraite ou copié n'pasted à partir du fichier PDF. (Même si un/ToUnicode
table est là, extraction de texte peut encore poser un problème, parce que ce tableau peut être endommagé, erronés ou incomplets, -- comme on le voit dans de nombreux du monde réel des fichiers PDF, et comme le montrent également quelques fichiers compagnon dans le ci-dessus liés GitHub.)OriginalL'auteur Kurt Pfeifle
Quel a été le PDF créé avec. Certains documents Pdf ne contiennent aucune information de codage, les données de la dessiner. Il n'existe aucun moyen pour extraire les données.
OriginalL'auteur mark stephens
Lorsqu'il est ouvert en tant que pièces jointes Gmail dans google Chrome (interne PDF navigateur) la copie ne copie normal caractères lisibles!
Il a travaillé pour moi quand j'ai eu ce problème et pour les autres. Je pense que le Chrome PDF viewer utilise le Google Drive de l'OCR automatiquement... C'est comme de la magie!
Il n'a pas de communiquer un document n'a-t-il? J'ai eu le même problème et il m'a aidé. Aucune raison de downvote à mon humble avis.
il n'a pas de communiquer un document, comment pouvez-vous prétendre que Chrome ne copie normal caractères lisibles? (Je n'ai pas droit de vote. Mais en combinaison avec votre commentaire que j'ai vraiment envisager.
Je voudrais avoir un exemple public PDF pour prouver cela fonctionne (au moins pour certains documents).
Je peux confirmer que cela fonctionne, je ne peux pas coller le texte ici que les documents sont confidentiels, mais nous avons eu jibberish lorsque vous essayez de copier coller à partir d'Adobe Reader et texte standard lors de l'utilisation de google Chrome, Natif de la visionneuse PDF.
OriginalL'auteur Michel de Ruiter
Sélectionnez le texte que vous souhaitez copier.
Clic droit
Choisissez l'option "Exporter la Sélection"
Dans la boîte de dialogue, choisissez un nom de fichier et enregistrez le nouveau fichier Rich Text Format (RTF)
Ouvrir RTF pour voir votre texte!
OriginalL'auteur Eapen
La meilleure façon de traiter cette question est (en supposant que vous avez Adobe Acrobat, ou quelque chose de similaire, vous ne savez pas si le Lecteur peut le faire) est de sauvegarder la doc en JPEG. Puis recompiler toutes les images dans un seul fichier pdf, puis utiliser la fonction OCR pour rechercher du texte dans les pages, vous pouvez copier et coller le texte.
OriginalL'auteur user6096423
PDF n'est pas un document texte. C'est plus un format graphique vectoriel qui peut parfois contenir du texte. Donc il y a des documents à partir de laquelle vous ne pouvez pas extraire le texte, sauf si vous êtes prêt à faire de l'OCR. C'est juste la façon dont il est.
C'est un très trompeur réponse en fait. Texte et vecteur de l'art sont à la fois citoyens de première classe dans un monde PDF. Le problème n'est pas que c'est un format vectoriel, le problème est que certains PDF écrivains ne faut pas mettre toutes les informations nécessaires pour pouvoir être correctement copier et coller.
OriginalL'auteur Ghostrider