Copier+coller du texte d'un PDF des résultats dans les ordures

Je suis en train d'écrire une thèse de Master - PNL système. J'ai un composant d'extraction.

C'est l'extraction d'un texte brut à partir de fichiers PDF. Il y a quelques fichiers PDF ne peuvent pas être extraites correctement. Extracteur (PDFBox bibliothèque) retourne une chaîne de caractères comme ceci:

"ğ xDn║si|d├gDF"Ti&cD╬lh d FÁhis~n ğ xd f«,"d ğ ffih »h"

ou

"10a61a91a22a25a3a27a17a23a20a8a13a14a61a25a17"

J'ai été vérifier chaque fichier qui fait de cette extraction du problème, et tous ces fichiers' texte ne peut pas être copié et collé à partir de Lecteur de PDF (Adobe Reader et FoxIt reader). Visualisez en ce lecteurs est activé, mais après la sélection de son contenu et de le copier dans le presse-papiers-je obtenir le même mal de texte (tel que décrit ci-dessus - les chaînes de pas sémantiquement correct caractères ou des chaînes de chiffres et de lettres).

Quelqu'un pourrait-il m'aider???

Parfois, vous ne peut tout simplement pas obtenir le texte sans avoir recours à l'OCR (reconnaissance optique de caractères). Cela ressemble à l'un d'entre eux.

OriginalL'auteur Michal_R | 2010-05-28