Comment extraire de la table sous forme de texte dans le fichier PDF à l'aide de Python?

J'ai un PDF qui contient des Tableaux, du texte et des images. Je veux extraire de la table où les tables sont là, dans le PDF.

Droit maintenant, fais manuellement pour trouver le Tableau de la page. À partir de là, je suis à la capture de la page et la sauvegarde dans un autre document PDF.

import PyPDF2

PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is stored

pfr = PyPDF2.PdfFileReader(open(PDFfilename, "rb")) #PdfFileReader object

pg4 = pfr.getPage(126) #extract pg 127

writer = PyPDF2.PdfFileWriter() #create PdfFileWriter object
#add pages
writer.addPage(pg4)

NewPDFfilename = "allTables.pdf" #filename of your PDF/directory where you want your new PDF to be
with open(NewPDFfilename, "wb") as outputStream:
    writer.write(outputStream) #write pages to new PDF

Mon but est d'extraire de la table de l'ensemble du document PDF.

Serait-ce de l'aide du module? github.com/chezou/tabula-py
J'ai essayé Mais cela ne fonctionne pas pour moi.
Maintenant, j'ai converti le fichier pdf en texte, dans le texte que j'ai pour identifier la table et écrire dans un fichier CSV/TSV/JSON
Cela dépend beaucoup de la PDF. Similaires-à la recherche des documents PDF en interne peut être très différent. Vous avez probablement essayer différentes outil-mécanisme de combinaisons d'identifier et d'extraire les données que vous êtes après. En fin de compte, vous pouvez quelque chose de simple qui fonctionne, ou vous pouvez combiner les différentes approches. J'ai eu un peu de cas similaire que j'ai résolu en utilisant d'abord Tabula puis post-traitement du résultat.
Il y a des questions similaires déjà existantes dans stackoverflow. Vérifier pour ces réponses, tout d'abord, un pour ex : stackoverflow.com/questions/28532770/...

OriginalL'auteur venkat | 2017-11-28

pdf python

27

à mon avis, vous avez 4 possibilités:
- Vous pouvez traiter le fichier pdf directement à l'aide de tabula
- Vous pouvez convertir le fichier pdf en texte à l'aide de pdftotext, puis analyser le texte avec python
- Vous pouvez utiliser l'outil externe, à convertir votre fichier pdf en format excel ou csv, puis d'utiliser un module python pour ouvrir le fichier excel/csv fichier.
- Vous pouvez également convertir des fichiers pdf en un fichier image, puis utiliser toute récente d'un logiciel OCR (qui reconstruire le tableau automatiquement à partir de l'image) pour obtenir les données
Votre question est près similaire avec:
Ce qui concerne

OriginalL'auteur A STEFANI
5

Je vous suggère de l'extrait de la table à l'aide de tabula. Passer vos pdf comme un argument à la table de l'api et, vous retournez à la table sous la forme d'un dataframe. Chaque tableau dans votre document pdf est retourné comme un dataframe.
C'est mon code pour l'extraction des pdf.
```
#the table will be returned in a list of dataframe,for working with dataframe you need pandas
import pandas as pd
import tabula
files = "filename.pdf"
path = 'C:\\Users\\Himanshu Poddar\\Desktop\\datathon\\Himachal\\'  + file
df = tabula.read_pdf(path, pages = '1', multiple_tables = True)
print(df)
```
Veuillez vous référer à cette repo de la mine, pour plus de détails.

OriginalL'auteur Himanshu Poddar
3

Juste en tant que mot clé pour la poursuite de votre recherche: Il y a aussi la possibilité d'utiliser zonal OCR. J'ai utilisé cela avec succès dans un projet. Mais cette méthode n'est pas adapté à haut volume/haute-vitesse, et il nécessite de bien définir le modèle d'extraction pour chaque champ que vous avez besoin:

Sur le côté positif, car il fonctionne visuellement, il fonctionne avec n'importe quel type de tableau (texte, image, numérisation).

Salut, avez-vous de dépôt github pour cette zonal ocr ?
Votre lien est mort

OriginalL'auteur Nic Endo
-3

Vous pouvez essayer de convertir votre fichier pdf en fichier excel et vous pouvez alors utiliser openpyxl bibliothèque pour extraire des données à partir de fichier excel, ajouter un fichier à un tableau et ensuite convertir le tableau en json.

J'ai converti un fichier Excel, s'il vous plaît aidez moi avec le code de ressource pour extraire les données à partir de fichier excel. Supposons que j'ai à faire tout fichier excel en JSON
Donc, tout ce que vous voulez savoir sur l'exportation de données à partir d'excel(openpyxl), que vous pouvez trouver sur ce lien zetcode.com/articles/openpyxl . Alors tout ce que vous devez savoir sur json, vous trouverez à ce lien docs.python-guide.org/en/latest/scenarios/json .

OriginalL'auteur Veselin Kontić

Vous devez vous connecter pour publier un commentaire.