Lire les fichiers pdf avec php

J'ai un gros fichier PDF qui est une carte de plancher d'un bâtiment. Il a couches pour tous les meubles de bureau, y compris les zones de texte de l'emplacement du siège.

Mon objectif est de lire ce fichier avec PHP, recherche dans le document pour les calques de texte, de récupérer leur contenu et les coordonnées dans le fichier. De cette façon, je peux la carte du siège de lieux -> x/y de coordonnées.

Est-il possible de le faire via PHP? (Ou même Ruby ou Python si c'est ce qui est nécessaire)

Le code de balisage contiennent des "coordonnées"? Si non, vous pouvez effectuer une recherche aussi longtemps que vous le souhaitez. PHP ne peut pas localiser les pixels de coordonnées d'un fichier pdf. Essayez d'expliquer votre "problème" un peu plus détaillé, peut-être par l'utilisation d'une image, etc.
Bonjour, avez-vous trouvé une réponse à votre question? Parce que j'ai coincé avec le similaire de problème et je ne peux pas trouver une solution... Et si vous avez trouvé, pourriez-vous s'il vous plaît dites-moi comment avez-vous les coordonnées d'images à partir du fichier pdf?..
Désolé, je n'ai pas 🙁

InformationsquelleAutor Ryan Doherty | 2009-06-16

pdf php

31

Découvrez FPDF (avec FPDI):

http://www.fpdf.org/

http://www.setasign.de/products/pdf-php-solutions/fpdi/

Ces vous permettra d'ouvrir un document pdf et ajouter du contenu à ça en PHP. Je devine que vous pouvez également utiliser la fonctionnalité de recherche par le contenu existant pour les valeurs dont vous avez besoin.

Une autre bibliothèque est TCPDF: http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf

Mise à jour pour ajouter un plus modernes de la bibliothèque: PDF Analyseur
- Aussi loin que l'analyse de la pdf en php, fpdf tombe tout court pdfparser pdfparser.org/documentation a une propreté et une interface de programmation intuitive
- salut @Nate! J'ai ajouté le fichier pdf parser la réponse. Merci pour le downvote sur 6 ans de le vieux la réponse!
- C'est pourquoi "surtout de l'opinion basée sur" des questions sont en dehors des limites sur ici en premier lieu. Aussi, je ne pense pas qu'il ya quelque chose de mal à exprimer une opinion sur un 6 ans en question, mais je suis d'accord, dans ce cas, la baisse de vote est stupide. J'ai donc upvoted vous 🙂
- Lors de la recherche pour mes propres réponses, je suis tombé sur cette information, et à l'époque je n'étais pas à la recherche de l'information de l'âge. Ce site est une ressource utile, mais seulement si l'information est vraie.
- La fpdf états FAQ, "18. Je voudrais faire un moteur de recherche en PHP et indexer les fichiers PDF. Puis-je le faire avec FPDF? Non." Alors que l'OP n'est pas à la recherche d'un moteur de recherche, ce Q & Une montre fpdf incapacité à analyser les éléments textuels à partir d'un pdf, qui est ce que l'OP et moi-même sommes à la recherche pour. Votre solution n'est pas une solution à la question de départ, et maintenant, il semble que l'ignorance est la propagation. Il est essentiel que les informations sur ce site sont exactes, sinon il est une autre "yahoo answers".
- J'entends déjà, et c'est pourquoi je l'ai ajouté à la réponse, donc de ceux qui cherchent la voir. Je pense que pour vraiment vieilles questions, en ajoutant des commentaires ou des réponses à garder les informations à jour est une excellente façon de garder le site précises et pertinentes.
InformationsquelleAutor Jay
24

Il y a une bibliothèque php (pdfparser) qui fait exactement ce que vous voulez.

site web du projet

http://www.pdfparser.org/

github

https://github.com/smalot/pdfparser

Page de démonstration/api

http://www.pdfparser.org/demo

À la suite notamment de pdfparser dans votre projet, vous pouvez obtenir tout le texte de la mypdf.pdf comme suit:
```
<?php
$parser = new \installpath\PdfParser\Parser();
$pdf    = $parser->parseFile('mypdf.pdf');  
$text = $pdf->getText();
echo $text;//all text from mypdf.pdf

?>
```
Similaires, vous pouvez obtenir les métadonnées du pdf comme wel comme l'obtention de la pdf des objets (par exemple des images).
- J'ai essayé cette bibliothèque. Beaucoup de fichiers PDF ne sont pas analysés par cette bibliothèque, d'ailleurs, il fonctionne
InformationsquelleAutor kasper Taeymans
0

Hmm ... pas exactement php, mais vous pourriez l'appeler un programme en php pour convertir le fichier pdf en un temporaire de fichier html, et ensuite d'analyser le fichier obtenu avec php. J'ai fait quelque chose de similaire pour un projet de mine et c'est le programme que j'ai utilisé:

PdfToHtml

Ce qui est cool à propos de ce programme est qu'il va cracher les éléments de texte dans < div > balises absolue, les coordonnées de position. Il semble que c'est exactement ce que vous essayez de faire.
- Hey, Pouvez-vous poster un exemple de code comment atteindre vos résultats. Je ne pouvais pas trouver une documentation appropriée. Il serait grand.
InformationsquelleAutor Rado
0

Vous pouvez aussi essayer cette application http://pdfbox.apache.org/. Un exemple peut être trouvé à https://www.jinises.com
- Désolé, mais c'est Java et pas de PHP :-/
- c'est au large de point
InformationsquelleAutor Mike
0

votre demande initiale est "j'ai un gros fichier PDF qui est une carte de plancher d'un bâtiment. "

J'ai peur de vous dire ce qui pourrait être plus difficile que vous devinez.

Cause la dernière lib chacuns utiliser pour analyser le pdf est smalot, et celui-ci est connu, à la rencontre de problème concernant le fichier de grande taille.

Ici aussi, Lookig pour un vrai lib php pour parser pdf, sans aucun souvenir de pointe qui ont besoin d'une configuration de php pour désactiver la limite de mémoire comme beaucoup de "développeurs" n' (qui je pense est vraiment pas conseillé).

voir ce post pour plus de détails sur smalot performance : https://github.com/smalot/pdfparser/issues/163

InformationsquelleAutor jmo

Vous devez vous connecter pour publier un commentaire.