pyPdf pas en mesure d'extraire le texte de quelques pages en PDF de mon

Je suis en train d'utiliser pyPdf pour extraire et imprimer des pages d'un fichier PDF multipage. Le problème est, le texte n'est pas extrait de quelques pages. J'ai mis un fichier d'exemple ici:

http://www.4shared.com/document/kmJF67E4/forms.html

Si vous exécutez ce qui suit, les 81 premières pages de retour pas de texte, tandis que les 11 derniers extraire correctement. Quelqu'un peut-il aider?

from pyPdf import PdfFileReader  
input = PdfFileReader(file("forms.pdf", "rb"))  
for page in input1.pages:  
    print page.extractText()

InformationsquelleAutor DrJAKing | 2010-11-17

pdf python

8

Noter que extractText() a encore des problèmes extraire le texte correctement. À partir de la documentation pour extractText():

Cela fonctionne bien pour certains fichiers PDF,
mais mal pour d'autres, selon
le générateur utilisé. Ce sera
raffiné dans l'avenir. Ne comptez pas sur
l'ordre du texte en sortant de cette
fonction, car il va changer, si ce
la fonction est plus sophistiquées.

Puisque c'est le texte que vous voulez, vous pouvez utiliser la commande Linux pdftotext.

D'invoquer qu'à l'aide de Python, vous pouvez le faire:
```
>>> import subprocess
>>> subprocess.call(['pdftotext', 'forms.pdf', 'output'])
```
Le texte est extrait de forms.pdf et enregistré à output.

Cela fonctionne dans le cas de votre fichier PDF et des extraits du texte que vous voulez.
- Merci pour votre aide. J'avais essayé pdftotext et transmis comme il résout que partiellement le problème. J'ai besoin de diviser les pdf en fichiers distincts sur la base de l'UID qui ont été trouvées sur chaque page. Cependant, le dernier 10 pages, qui pyPdf peut extraire, de ne pas avoir textuelle des étiquettes de page, afin de l'utiliser pdftotext, tandis qu'il me donne tout le texte, ne pas me donner un moyen de génération d'une liste de pages pour un UIDE.
- Ce n'est pas faire un mauvais travail de sortie de la PDF du texte, mais ne conserve pas la forme d'un tableau.
InformationsquelleAutor user225312
1

Vous pouvez également essayer les pdfminer bibliothèque (aussi en python), et voir si c'est mieux à extraire le texte. Pour le partage de l'cependant, vous allez avoir à coller avec pyPdf comme pdfminer ne supporte pas que.
- J'ai essayé pdfminer... les dernières pages ne sont pas obtenir extrait correctement pour une raison quelconque.
InformationsquelleAutor Steven
1

Ce n'est pas vraiment une réponse, mais le problème avec pyPdf c'est: il n'est pas encore en charge les CMaps. Le format PDF permet de polices à utiliser CMaps à la carte de caractère IDs (octets dans le fichier PDF) à caractère Unicode codes. Lorsque vous avez un fichier PDF qui contient des caractères non-ASCII, il y a probablement une CMap en cours d'utilisation, et même, parfois, quand il n'y a pas de caractères non-ASCII. Lorsque pyPdf rencontre des chaînes qui ne sont pas dans la norme de codage Unicode, il voit tout un tas de code octet; il ne peut pas convertir ces octets Unicode, de sorte qu'il vous donne juste les cordes à vide. En fait j'ai eu ce même problème et je suis en train de travailler sur le code source pour le moment. C'est beaucoup de temps, mais j'espère que d'envoyer un patch pour le responsable quelque temps autour de la mi-2011.

InformationsquelleAutor brosef
0

Je trouve qu'il est parfois utile de le convertir en ps (essayez avec pdf2pset pdftops pour les différences de potentiel) puis retour à pdf (ps2pdf). Alors tentez votre script d'origine à nouveau.
- J'étais plein d'espoir, mais tout ce qu'il semble faire, c'est de faire le fichier d'origine de plus grand et de ralentir l'extraction de texte null!
- Désolé, il a travaillé pour moi "quelques fois", pas toujours.
InformationsquelleAutor Danosaure
0

Je commence à penser que je devrais adopter un malpropre deux partie de la solution. il y a deux sections dans le document PDF, pp 1-82 qui ont le texte d'une page d'étiquettes (pdftotext peut extraire), et pp 83-end qui n'ont pas d'étiquettes de page mais pyPDF peut extraire explicitement sait pages.

Je pense que j'ai besoin de combiner les deux. Maladroit, mais je ne vois pas d'autre solution. Malheureusement, je vais devoir le faire sur une machine Windows.

InformationsquelleAutor DrJAKing
0

J'ai eu le même problème avec certains fichiers pdf et windows, ce travail est excellent pour moi:

1.- Télécharger Xpdf outils pour windows

2.- copie pdftotext.exe de xpdf-outils-win-4.00\bin32 à C:\Windows\System32 et aussi pour C:\Windows\SysWOW64

3.- utiliser des sous-processus de commande exécuter à partir de la console:
```
import subprocess

try:
    extInfo = subprocess.check_output('pdftotext.exe '+filePath + ' -',shell=True,stderr=subprocess.STDOUT).strip()
except Exception as e:
    print (e) 
```
InformationsquelleAutor Budlog

Vous devez vous connecter pour publier un commentaire.