Extraction de texte à partir brouillé PDF

J'ai un fichier PDF avec de précieuses informations textuelles.

Le problème est que je ne peut pas extraire le texte, tout ce que j'obtiens est un tas de brouillage des symboles. La même chose se passe si je l'ai copier et coller le texte à partir du lecteur de PDF vers un fichier texte. Même Fichier -> Enregistrer sous texte dans Acrobat Reader échoue.

J'ai utilisé tous les outils que je pourrais obtenir mes mains sur, et le résultat est le même. Je crois que cela a quelque chose à voir avec l'incorporation de polices, mais je ne sais pas de quoi exactement?

Mes questions:

  • Ce qui est le coupable de cette étrange texte fausser?
  • Comment extraire le contenu du texte à partir du fichier PDF (par programme, avec un outil, de manipuler les bits directement, etc.)?
  • Comment fixer le fichier PDF afin de ne pas corrompre les sur la copie?
Puissé-je voir le fichier PDF?
J'ai retravaillé la question, car il peut convenir parfaitement, en effet, les fichiers PDF sont un format de fichier commun pour automatisé d'extraction de texte, et les réponses déjà parfaitement réponses procédure de programmation pour vérifier ce problème et de le corriger (je peux aussi ajouter une réponse avec un extrait de code pour faire de l'OCR). Je vote pour rouvrir la question, comme il peut s'avérer utile à d'autres développeurs.

OriginalL'auteur SNAG | 2012-08-29