Comment extraire de la table sous forme de texte dans le fichier PDF à l'aide de Python?

J'ai un PDF qui contient des Tableaux, du texte et des images. Je veux extraire de la table où les tables sont là, dans le PDF.

Droit maintenant, fais manuellement pour trouver le Tableau de la page. À partir de là, je suis à la capture de la page et la sauvegarde dans un autre document PDF.

import PyPDF2

PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is stored

pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #PdfFileReader object

pg4 = pfr.getPage(126) #extract pg 127

writer = PyPDF2.PdfFileWriter() #create PdfFileWriter object
#add pages
writer.addPage(pg4)

NewPDFfilename = "allTables.pdf" #filename of your PDF/directory where you want your new PDF to be
with open(NewPDFfilename, "wb") as outputStream:
    writer.write(outputStream) #write pages to new PDF

Mon but est d'extraire de la table de l'ensemble du document PDF.

Comment extraire de la table sous forme de texte dans le fichier PDF à l'aide de Python?

Serait-ce de l'aide du module? github.com/chezou/tabula-py
J'ai essayé Mais cela ne fonctionne pas pour moi.
Maintenant, j'ai converti le fichier pdf en texte, dans le texte que j'ai pour identifier la table et écrire dans un fichier CSV/TSV/JSON
Cela dépend beaucoup de la PDF. Similaires-à la recherche des documents PDF en interne peut être très différent. Vous avez probablement essayer différentes outil-mécanisme de combinaisons d'identifier et d'extraire les données que vous êtes après. En fin de compte, vous pouvez quelque chose de simple qui fonctionne, ou vous pouvez combiner les différentes approches. J'ai eu un peu de cas similaire que j'ai résolu en utilisant d'abord Tabula puis post-traitement du résultat.
Il y a des questions similaires déjà existantes dans stackoverflow. Vérifier pour ces réponses, tout d'abord, un pour ex : stackoverflow.com/questions/28532770/...

OriginalL'auteur venkat | 2017-11-28