Copier+coller du texte d'un PDF des résultats dans les ordures

Je suis en train d'écrire une thèse de Master - PNL système. J'ai un composant d'extraction.

C'est l'extraction d'un texte brut à partir de fichiers PDF. Il y a quelques fichiers PDF ne peuvent pas être extraites correctement. Extracteur (PDFBox bibliothèque) retourne une chaîne de caractères comme ceci:

"ğ xDn║si|d├gDF"Ti&cD╬lh d FÁhis~n ğ xd f«,"d ğ ffih »h"

"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"

J'ai été vérifier chaque fichier qui fait de cette extraction du problème, et tous ces fichiers' texte ne peut pas être copié et collé à partir de Lecteur de PDF (Adobe Reader et FoxIt reader). Visualisez en ce lecteurs est activé, mais après la sélection de son contenu et de le copier dans le presse-papiers-je obtenir le même mal de texte (tel que décrit ci-dessus - les chaînes de pas sémantiquement correct caractères ou des chaînes de chiffres et de lettres).

Quelqu'un pourrait-il m'aider???

Parfois, vous ne peut tout simplement pas obtenir le texte sans avoir recours à l'OCR (reconnaissance optique de caractères). Cela ressemble à l'un d'entre eux.

OriginalL'auteur Michal_R | 2010-05-28

pdf pdfbox

6

Si sont en mesure de réussir à sélectionner et copier le texte dans Adobe Reader -- indiqué que le document PDF contient des objets texte -- mais vous ne pouvez pas coller le texte copié dans le bloc-notes, sans elle, le regardant comme un tas d'ordures caractères, alors le problème est probablement lié à la CMap que le texte sélectionné utilise.

La spécification PDF fournit de nombreuses options pour l'affichage de le contenu textuel et l'extraction du contenu du texte. Une CMap indique la correspondance entre les codes de caractère de caractère de sélecteurs. La technique PDF souligne certains CMaps prédéfinis, mais d'autres CMaps peuvent également être intégrés.

Ma conjecture est que soit la CMap pour ce texte est corrompu ou que le PDFBox de bibliothèque n'a pas d'appuyer cette CMap. Je suggère d'essayer une autre SDK juste pour voir si vous obtenez des résultats différents.

OriginalL'auteur Rowan
3

Très souvent, dans de tels cas, où vous ne pouvez pas sélectionner, copier n " coller du texte à partir d'Acrobat (Reader) de la fenêtre, il y a une autre option qui fonctionne néanmoins:
- Ouvrir 'Fichier' menu,
- sélectionnez " Enregistrer sous...",
- sélectionnez " Texte (normal) (*.txt)',
- naviguez vers le répertoire cible,
- tapez le nom que vous souhaitez utiliser pour le fichier texte.
Vous aurez tout le texte de toutes les pages du fichier et vous devez trouver l'endroit où vous vouliez copier ""coller initialement -- dans la mesure où il n'est pas aussi confortable que la copie directe n" coller. Mais il fonctionne de manière plus fiable....

Il travaille également avec acroread sur Linux (mais vous devez choisir 'Enregistrer sous...' à partir du menu fichier).

Mise à jour

Vous pouvez utiliser le pdffonts utilitaire de ligne de commande pour obtenir un rapide coup d'analyse de la police de caractères utilisée par un PDF.

Voici un exemple de sortie, ce qui démontre où un problème pour l'extraction du texte sera très probablement se produire. Il utilise l'une de ces codée à la main des fichiers PDF à partir d'un GitHub-Référentiel qui a été créé pour fournir des PDF fichiers d'exemples qui sont bien commenté et peut facilement être ouvert dans un éditeur de texte:
```
$ pdffonts  textextract-bad2.pdf
  name                            type         encoding    emb sub uni object ID
  ------------------------------- ------------ ----------- --- --- --- ---------
  BAAAAA+Helvetica                TrueType     WinAnsi     yes yes yes     12  0
  CAAAAA+Helvetica-Bold           TrueType     WinAnsi     yes yes no      13  0
```
Comment interpréter ce tableau?
- Le fichier PDF ci-dessus de fichier utilise deux incorporée dans un jeu partiel des polices (comme indiqué par la BAAAAA+ et CAAAAA+ préfixes de leurs noms, ainsi que par la yes entrées dans le sub colonne), Helvetica et Helvtica-Bold.
- Les deux polices de caractères sont de type TrueType.
- Les deux polices, utilisez un WinAnsi de codage (une police d'encodage de cartes char identifiants utilisés dans le PDF de code source pour les glyphes que l'on doit tirer).
  Toutefois, uniquement pour les polices de /Helvetica il y a un /ToUnicode table disponible dans le PDF (pour /Helvetica-Bold il n'y a aucun), comme indiqué par la yes/no dans le uni-colonne).
La /ToUnicode table est nécessaire de fournir une cartographie inverse de caractère identifiants et les codes de caractères.

Un manque /ToUnicode table pour une police spécifique est presque toujours un bon indicateur que les chaînes de texte à l'aide de cette police ne peut pas être extraite ou copié n'pasted à partir du fichier PDF. (Même si un /ToUnicode table est là, extraction de texte peut encore poser un problème, parce que ce tableau peut être endommagé, erronés ou incomplets, -- comme on le voit dans de nombreux du monde réel des fichiers PDF, et comme le montrent également quelques fichiers compagnon dans le ci-dessus liés GitHub.)

OriginalL'auteur Kurt Pfeifle
1

Quel a été le PDF créé avec. Certains documents Pdf ne contiennent aucune information de codage, les données de la dessiner. Il n'existe aucun moyen pour extraire les données.

OriginalL'auteur mark stephens
1

Lorsqu'il est ouvert en tant que pièces jointes Gmail dans google Chrome (interne PDF navigateur) la copie ne copie normal caractères lisibles!

Il a travaillé pour moi quand j'ai eu ce problème et pour les autres. Je pense que le Chrome PDF viewer utilise le Google Drive de l'OCR automatiquement... C'est comme de la magie!

Comment avez-vous testé ce serait travailler pour des OP PDF? Je ne vois pas le lien.
Il n'a pas de communiquer un document n'a-t-il? J'ai eu le même problème et il m'a aidé. Aucune raison de downvote à mon humble avis.
il n'a pas de communiquer un document, comment pouvez-vous prétendre que Chrome ne copie normal caractères lisibles? (Je n'ai pas droit de vote. Mais en combinaison avec votre commentaire que j'ai vraiment envisager.
Je voudrais avoir un exemple public PDF pour prouver cela fonctionne (au moins pour certains documents).
Je peux confirmer que cela fonctionne, je ne peux pas coller le texte ici que les documents sont confidentiels, mais nous avons eu jibberish lorsque vous essayez de copier coller à partir d'Adobe Reader et texte standard lors de l'utilisation de google Chrome, Natif de la visionneuse PDF.

OriginalL'auteur Michel de Ruiter
0

Sélectionnez le texte que vous souhaitez copier.
Clic droit
Choisissez l'option "Exporter la Sélection"
Dans la boîte de dialogue, choisissez un nom de fichier et enregistrez le nouveau fichier Rich Text Format (RTF)
Ouvrir RTF pour voir votre texte!

Comment avez-vous testé ce serait travailler pour des OP PDF? Je ne vois pas le lien.

OriginalL'auteur Eapen
0

La meilleure façon de traiter cette question est (en supposant que vous avez Adobe Acrobat, ou quelque chose de similaire, vous ne savez pas si le Lecteur peut le faire) est de sauvegarder la doc en JPEG. Puis recompiler toutes les images dans un seul fichier pdf, puis utiliser la fonction OCR pour rechercher du texte dans les pages, vous pouvez copier et coller le texte.

OriginalL'auteur user6096423
-2

PDF n'est pas un document texte. C'est plus un format graphique vectoriel qui peut parfois contenir du texte. Donc il y a des documents à partir de laquelle vous ne pouvez pas extraire le texte, sauf si vous êtes prêt à faire de l'OCR. C'est juste la façon dont il est.

je pense à propos de contournement de ces fichiers, par l'utilisation de l'OCR.
C'est un très trompeur réponse en fait. Texte et vecteur de l'art sont à la fois citoyens de première classe dans un monde PDF. Le problème n'est pas que c'est un format vectoriel, le problème est que certains PDF écrivains ne faut pas mettre toutes les informations nécessaires pour pouvoir être correctement copier et coller.

OriginalL'auteur Ghostrider

Vous devez vous connecter pour publier un commentaire.

Mise à jour