Comment extraire PDF des champs de remplir le formulaire en Python?

Je suis en train d'utiliser Python pour le processus de certains formulaires PDF qui ont été remplis et signés à l'aide d'Adobe Acrobat Reader.

J'ai essayé:

La pdfminer démonstration: il n'a pas de vidage de tout rempli de données.
pyPdf: il maxed un core 2 minutes quand j'ai essayé de charger le fichier de PdfFileReader(f) et j'ai simplement abandonné et l'a tué.
Jython et PDFBox: got qui fonctionne très bien mais le temps de démarrage est excessif, je vais juste écrire un utilitaire externe en droit de Java si c'est ma seule option.

Je peux garder la chasse pour les bibliothèques et les essayer, mais je suis en espérant que quelqu'un a déjà une solution efficace pour cela.

Mise à jour: Basé sur la réponse de Steven j'ai regardé dans pdfminer et il a fait le tour bien.

from argparse import ArgumentParser
import pickle
import pprint
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdftypes import resolve1, PDFObjRef
def load_form(filename):
"""Load pdf form contents into a nested list of name/value tuples"""
with open(filename, 'rb') as file:
parser = PDFParser(file)
doc = PDFDocument()
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize()
return [load_fields(resolve1(f)) for f in
resolve1(doc.catalog['AcroForm'])['Fields']]
def load_fields(field):
"""Recursively load form fields"""
form = field.get('Kids', None)
if form:
return [load_fields(resolve1(f)) for f in form]
else:
# Some field types, like signatures, need extra resolving
return (field.get('T').decode('utf-16'), resolve1(field.get('V')))
def parse_cli():
"""Load command line arguments"""
parser = ArgumentParser(description='Dump the form contents of a PDF.')
parser.add_argument('file', metavar='pdf_form',
help='PDF Form to dump the contents of')
parser.add_argument('-o', '--out', help='Write output to file',
default=None, metavar='FILE')
parser.add_argument('-p', '--pickle', action='store_true', default=False,
help='Format output for python consumption')
return parser.parse_args()
def main():
args = parse_cli()
form = load_form(args.file)
if args.out:
with open(args.out, 'w') as outfile:
if args.pickle:
pickle.dump(form, outfile)
else:
pp = pprint.PrettyPrinter(indent=2)
file.write(pp.pformat(form))
else:
if args.pickle:
print pickle.dumps(form)
else:
pp = pprint.PrettyPrinter(indent=2)
pp.pprint(form)
if __name__ == '__main__':
main()

Comme une note, j'ai aussi essayé d'utiliser pdftk comme un utilitaire externe et il n'a pas passé le mot de passe de propriétaire.

InformationsquelleAutor Olson | 2010-10-21

37

Vous devriez être en mesure de le faire avec pdfminer, mais il faudra un peu de fouiller dans les entrailles de pdfminer et quelques connaissances sur le format pdf (wrt formes de cours, mais aussi sur le pdf en interne des structures comme des "dictionnaires" et "indirecte des objets").

Cet exemple peut vous aider sur votre chemin (je pense qu'il ne fonctionne que sur les cas les plus simples, sans imbriqués les champs, etc...)
```
import sys
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1
filename = sys.argv[1]
fp = open(filename, 'rb')
parser = PDFParser(fp)
doc = PDFDocument(parser)
fields = resolve1(doc.catalog['AcroForm'])['Fields']
for i in fields:
field = resolve1(i)
name, value = field.get('T'), field.get('V')
print '{0}: {1}'.format(name, value)
```
EDIT: j'ai oublié de mentionner: si vous devez fournir un mot de passe, le passer à doc.initialize()
- Qui a fait le tour, je vous remercie. J'ai vu la démo sur le web et pensé que je pouvais voir si ce que je voulais, c'était là-bas et si pas, je ne pouvais l'ignorer. S'avère non seulement il peut faire exactement comme je le souhaite, il peut même gérer les champs de signature que PdfBox ne le peuvent pas.
- J'ai un problème d'encodage. À l'aide du champ.get('V') ne pas encoder les caractères spéciaux comme " ü " ou " ä " correctement. Quelqu'un aurait-il une solution à cela? La conversion de la chaîne de caractères au format unicode soulève une erreur de décodage.
- Dans la version actuelle de pdfminer la PDFDocument.méthode initialize a été supprimé. Ce code fonctionne si vous venez de supprimer cette ligne.
- Cette ligne provoque une erreur de pdfminer.pdfdocument importation PDFDocument Doit utiliser de pdfminer.pdfparser importation PDFParser, PDFDocument Également obtenir cette erreur: Traceback (most recent call last): File "so_2.py", ligne 12, in <module> champs = resolve1(doc.catalogue['AcroForm'])['Champs'] TypeError: 'NoneType' object n'est pas subscriptable
- Œuvres! Testé avec ce Latex d'entrée: tex.stackexchange.com/a/366238/19083
InformationsquelleAutor Steven

Python 3.6+:

pip install PyPDF2

# -*- coding: utf-8 -*-
from collections import OrderedDict
from PyPDF2 import PdfFileWriter, PdfFileReader
def _getFields(obj, tree=None, retval=None, fileobj=None):
"""
Extracts field data if this PDF contains interactive form fields.
The *tree* and *retval* parameters are for recursive use.
:param fileobj: A file object (usually a text file) to write
a report to on all interactive form fields found.
:return: A dictionary where each key is a field name, and each
value is a :class:`Field<PyPDF2.generic.Field>` object. By
default, the mapping name is used for keys.
:rtype: dict, or ``None`` if form data could not be located.
"""
fieldAttributes = {'/FT': 'Field Type', '/Parent': 'Parent', '/T': 'Field Name', '/TU': 'Alternate Field Name',
'/TM': 'Mapping Name', '/Ff': 'Field Flags', '/V': 'Value', '/DV': 'Default Value'}
if retval is None:
retval = OrderedDict()
catalog = obj.trailer["/Root"]
# get the AcroForm tree
if "/AcroForm" in catalog:
tree = catalog["/AcroForm"]
else:
return None
if tree is None:
return retval
obj._checkKids(tree, retval, fileobj)
for attr in fieldAttributes:
if attr in tree:
# Tree is a field
obj._buildField(tree, retval, fileobj, fieldAttributes)
break
if "/Fields" in tree:
fields = tree["/Fields"]
for f in fields:
field = f.getObject()
obj._buildField(field, retval, fileobj, fieldAttributes)
return retval
def get_form_fields(infile):
infile = PdfFileReader(open(infile, 'rb'))
fields = _getFields(infile)
return OrderedDict((k, v.get('/V', '')) for k, v in fields.items())
if __name__ == '__main__':
from pprint import pprint
pdf_file_name = 'FormExample.pdf'
pprint(get_form_fields(pdf_file_name))

merci pour le détail de la solution!! cependant, pour mon formulaire, je reçois liste de champs vide !! n'importe quel outil a été utilisé pour créer la forme ? les miens ont été créés à l'aide de Adobe de cycle de vie
Cette réponse m'a sauvé la journée!

InformationsquelleAutor dvska

4

Le Python PyPDF2 paquet (successeur de pyPdf) est très pratique:
```
import PyPDF2
f = PyPDF2.PdfFileReader('form.pdf')
ff = f.getFields()
```
Puis ff est un dict qui contient toutes les informations d'un formulaire.

InformationsquelleAutor equaeghe

Rapide et sale à 2 minutes de l'emploi; il suffit d'utiliser PDFminer pour convertir les PDF en xml, puis de saisir tous les champs.

from xml.etree import ElementTree
from pprint import pprint
import os
def main():
print "Calling PDFDUMP.py"
os.system("dumppdf.py -a FILE.pdf > out.xml")
# Preprocess the file to eliminate bad XML.
print "Screening the file"
o = open("output.xml","w") #open for append
for line in open("out.xml"):
line = line.replace("&#", "Invalid_XML") #some bad data in xml for formatting info.
o.write(line) 
o.close()
print "Opening XML output"
tree = ElementTree.parse('output.xml')
lastnode = ""
lastnode2 = ""
list = {}
entry = {}
for node in tree.iter(): # Run through the tree..        
# Check if New node
if node.tag == "key" and node.text == "T":
lastnode = node.tag + node.text
elif lastnode == "keyT":
for child in node.iter():
entry["ID"] = child.text
lastnode = ""
if node.tag == "key" and node.text == "V":
lastnode2 = node.tag + node.text
elif lastnode2 == "keyV":
for child in node.iter():
if child.tag == "string":
if entry.has_key("ID"):
entry["Value"] = child.text
list[entry["ID"]] = entry["Value"]
entry = {}
lastnode2 = ""
pprint(list)
if __name__ == '__main__':
main()

Il n'est pas assez, juste une simple preuve de concept. J'ai besoin pour le mettre en oeuvre un système que je travaille, donc je vais être nettoyé, mais je pensais que j'allais le poster dans le cas où quelqu'un le trouve utile.

InformationsquelleAutor Philip

Mise à jour pour la dernière version de pdf mineur (changement d'importation et d'analyseur/doc d'installation dans la première fonction)

from argparse import ArgumentParser
import pickle
import pprint
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdftypes import resolve1
from pdfminer.pdftypes import PDFObjRef
def load_form(filename):
"""Load pdf form contents into a nested list of name/value tuples"""
with open(filename, 'rb') as file:
parser = PDFParser(file)
doc = PDFDocument(parser)
parser.set_document(doc)
#doc.set_parser(parser)
doc.initialize()
return [load_fields(resolve1(f)) for f in
resolve1(doc.catalog['AcroForm'])['Fields']]
def load_fields(field):
"""Recursively load form fields"""
form = field.get('Kids', None)
if form:
return [load_fields(resolve1(f)) for f in form]
else:
# Some field types, like signatures, need extra resolving
return (field.get('T').decode('utf-8'), resolve1(field.get('V')))
def parse_cli():
"""Load command line arguments"""
parser = ArgumentParser(description='Dump the form contents of a PDF.')
parser.add_argument('file', metavar='pdf_form',
help='PDF Form to dump the contents of')
parser.add_argument('-o', '--out', help='Write output to file',
default=None, metavar='FILE')
parser.add_argument('-p', '--pickle', action='store_true', default=False,
help='Format output for python consumption')
return parser.parse_args()
def main():
args = parse_cli()
form = load_form(args.file)
if args.out:
with open(args.out, 'w') as outfile:
if args.pickle:
pickle.dump(form, outfile)
else:
pp = pprint.PrettyPrinter(indent=2)
file.write(pp.pformat(form))
else:
if args.pickle:
print pickle.dumps(form)
else:
pp = pprint.PrettyPrinter(indent=2)
pp.pprint(form)
if __name__ == '__main__':
main()

Où mettez-vous le nom de fichier afin que le script puisse fonctionner ?
si vous voyez parse_cli est de ramasser le nom de fichier de paramètres de ligne de commande .. vous pouvez modifier cette fonction pour passer votre nom de fichier !
pour mon fichier pdf, je ne vois pas tous les détails disponibles à l'analyseur !! importe-t-il ce qui a créé le fichier pdf ?

InformationsquelleAutor vossman77

0

Il y a une faute de frappe sur ces lignes:
```
file.write(pp.pformat(form))
```
Devrait être:
```
outfile.write(pp.pformat(form))
```
InformationsquelleAutor Shane

Vous devez vous connecter pour publier un commentaire.