Comment lire ligne par ligne dans un fichier pdf à l'aide de PyPdf?
J'ai un code pour lire à partir d'un fichier pdf. Est-il un moyen de lire ligne par ligne à partir du fichier pdf (pas de pages) à l'aide de Pypdf, Python 2.6, sur Windows?
Voici le code pour lire le pdf pages:
import pyPdf
def getPDFContent(path):
content = ""
num_pages = 10
p = file(path, "rb")
pdf = pyPdf.PdfFileReader(p)
for i in range(0, num_pages):
content += pdf.getPage(i).extractText() + "\n"
content = " ".join(content.replace(u"\xa0", " ").strip().split())
return content
Mise à jour:
L'appel de code est: est-ce
f= open('test.txt','w')
pdfl = getPDFContent("test.pdf").encode("ascii", "ignore")
f.write(pdfl)
f.close()
Vous devez vous connecter pour publier un commentaire.
Ressemble à ce que vous avez est une grande partie du texte de données que vous souhaitez interpréter ligne par ligne.
Vous pouvez utiliser le StringIO classe à encapsuler que le contenu adressable de fichier comme objet:
Dans votre cas, ne:
À l'aide de
yield
etPdfFileReader.pages
peut simplifier les choses,En outre, Certains peuvent google "python obtenir le contenu pdf texte" alors, voici comment faire: (c'est comment je suis arrivé ici)