Comment extraire de la table sous forme de texte dans le fichier PDF à l'aide de Python?
J'ai un PDF qui contient des Tableaux, du texte et des images. Je veux extraire de la table où les tables sont là, dans le PDF.
Droit maintenant, fais manuellement pour trouver le Tableau de la page. À partir de là, je suis à la capture de la page et la sauvegarde dans un autre document PDF.
import PyPDF2
PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is stored
pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #PdfFileReader object
pg4 = pfr.getPage(126) #extract pg 127
writer = PyPDF2.PdfFileWriter() #create PdfFileWriter object
#add pages
writer.addPage(pg4)
NewPDFfilename = "allTables.pdf" #filename of your PDF/directory where you want your new PDF to be
with open(NewPDFfilename, "wb") as outputStream:
writer.write(outputStream) #write pages to new PDF
Mon but est d'extraire de la table de l'ensemble du document PDF.
Serait-ce de l'aide du module? github.com/chezou/tabula-py
J'ai essayé Mais cela ne fonctionne pas pour moi.
Maintenant, j'ai converti le fichier pdf en texte, dans le texte que j'ai pour identifier la table et écrire dans un fichier CSV/TSV/JSON
Cela dépend beaucoup de la PDF. Similaires-à la recherche des documents PDF en interne peut être très différent. Vous avez probablement essayer différentes outil-mécanisme de combinaisons d'identifier et d'extraire les données que vous êtes après. En fin de compte, vous pouvez quelque chose de simple qui fonctionne, ou vous pouvez combiner les différentes approches. J'ai eu un peu de cas similaire que j'ai résolu en utilisant d'abord Tabula puis post-traitement du résultat.
Il y a des questions similaires déjà existantes dans stackoverflow. Vérifier pour ces réponses, tout d'abord, un pour ex : stackoverflow.com/questions/28532770/...
J'ai essayé Mais cela ne fonctionne pas pour moi.
Maintenant, j'ai converti le fichier pdf en texte, dans le texte que j'ai pour identifier la table et écrire dans un fichier CSV/TSV/JSON
Cela dépend beaucoup de la PDF. Similaires-à la recherche des documents PDF en interne peut être très différent. Vous avez probablement essayer différentes outil-mécanisme de combinaisons d'identifier et d'extraire les données que vous êtes après. En fin de compte, vous pouvez quelque chose de simple qui fonctionne, ou vous pouvez combiner les différentes approches. J'ai eu un peu de cas similaire que j'ai résolu en utilisant d'abord Tabula puis post-traitement du résultat.
Il y a des questions similaires déjà existantes dans stackoverflow. Vérifier pour ces réponses, tout d'abord, un pour ex : stackoverflow.com/questions/28532770/...
OriginalL'auteur venkat | 2017-11-28
Vous devez vous connecter pour publier un commentaire.
à mon avis, vous avez 4 possibilités:
Vous pouvez traiter le fichier pdf directement à l'aide de tabula
Vous pouvez convertir le fichier pdf en texte à l'aide de pdftotext, puis analyser le texte avec python
Vous pouvez utiliser l'outil externe, à convertir votre fichier pdf en format excel ou csv, puis d'utiliser un module python pour ouvrir le fichier excel/csv fichier.
Vous pouvez également convertir des fichiers pdf en un fichier image, puis utiliser toute récente d'un logiciel OCR (qui reconstruire le tableau automatiquement à partir de l'image) pour obtenir les données
Votre question est près similaire avec:
Extrait /Identifier les Tableaux de PDF python
L'extraction de tables à partir d'un pdf
Extrait de la table à partir d'un PDF
Comment gratter les tableaux sont en milliers de fichiers PDF?
PDF de Données et de tables de Grattage pour Excel
L'extraction de contenu de la table à partir d'une collection de fichiers PDF
Ce qui concerne
OriginalL'auteur A STEFANI
Je vous suggère de l'extrait de la table à l'aide de tabula. Passer vos pdf comme un argument à la table de l'api et, vous retournez à la table sous la forme d'un dataframe. Chaque tableau dans votre document pdf est retourné comme un dataframe.
C'est mon code pour l'extraction des pdf.
Veuillez vous référer à cette repo de la mine, pour plus de détails.
OriginalL'auteur Himanshu Poddar
Juste en tant que mot clé pour la poursuite de votre recherche: Il y a aussi la possibilité d'utiliser zonal OCR. J'ai utilisé cela avec succès dans un projet. Mais cette méthode n'est pas adapté à haut volume/haute-vitesse, et il nécessite de bien définir le modèle d'extraction pour chaque champ que vous avez besoin:
Sur le côté positif, car il fonctionne visuellement, il fonctionne avec n'importe quel type de tableau (texte, image, numérisation).
Votre lien est mort
OriginalL'auteur Nic Endo
Vous pouvez essayer de convertir votre fichier pdf en fichier excel et vous pouvez alors utiliser openpyxl bibliothèque pour extraire des données à partir de fichier excel, ajouter un fichier à un tableau et ensuite convertir le tableau en json.
Donc, tout ce que vous voulez savoir sur l'exportation de données à partir d'excel(openpyxl), que vous pouvez trouver sur ce lien zetcode.com/articles/openpyxl . Alors tout ce que vous devez savoir sur json, vous trouverez à ce lien docs.python-guide.org/en/latest/scenarios/json .
OriginalL'auteur Veselin Kontić