Lire les fichiers pdf avec php
J'ai un gros fichier PDF qui est une carte de plancher d'un bâtiment. Il a couches pour tous les meubles de bureau, y compris les zones de texte de l'emplacement du siège.
Mon objectif est de lire ce fichier avec PHP, recherche dans le document pour les calques de texte, de récupérer leur contenu et les coordonnées dans le fichier. De cette façon, je peux la carte du siège de lieux -> x/y de coordonnées.
Est-il possible de le faire via PHP? (Ou même Ruby ou Python si c'est ce qui est nécessaire)
- Le code de balisage contiennent des "coordonnées"? Si non, vous pouvez effectuer une recherche aussi longtemps que vous le souhaitez. PHP ne peut pas localiser les pixels de coordonnées d'un fichier pdf. Essayez d'expliquer votre "problème" un peu plus détaillé, peut-être par l'utilisation d'une image, etc.
- Bonjour, avez-vous trouvé une réponse à votre question? Parce que j'ai coincé avec le similaire de problème et je ne peux pas trouver une solution... Et si vous avez trouvé, pourriez-vous s'il vous plaît dites-moi comment avez-vous les coordonnées d'images à partir du fichier pdf?..
- Désolé, je n'ai pas 🙁
Vous devez vous connecter pour publier un commentaire.
Découvrez FPDF (avec FPDI):
http://www.fpdf.org/
http://www.setasign.de/products/pdf-php-solutions/fpdi/
Ces vous permettra d'ouvrir un document pdf et ajouter du contenu à ça en PHP. Je devine que vous pouvez également utiliser la fonctionnalité de recherche par le contenu existant pour les valeurs dont vous avez besoin.
Une autre bibliothèque est TCPDF: http://www.tecnick.com/public/code/cp_dpage.php?aiocp_dp=tcpdf
Mise à jour pour ajouter un plus modernes de la bibliothèque: PDF Analyseur
Il y a une bibliothèque php (pdfparser) qui fait exactement ce que vous voulez.
site web du projet
http://www.pdfparser.org/
github
https://github.com/smalot/pdfparser
Page de démonstration/api
http://www.pdfparser.org/demo
À la suite notamment de pdfparser dans votre projet, vous pouvez obtenir tout le texte de la
mypdf.pdf
comme suit:Similaires, vous pouvez obtenir les métadonnées du pdf comme wel comme l'obtention de la pdf des objets (par exemple des images).
Hmm ... pas exactement php, mais vous pourriez l'appeler un programme en php pour convertir le fichier pdf en un temporaire de fichier html, et ensuite d'analyser le fichier obtenu avec php. J'ai fait quelque chose de similaire pour un projet de mine et c'est le programme que j'ai utilisé:
PdfToHtml
Ce qui est cool à propos de ce programme est qu'il va cracher les éléments de texte dans < div > balises absolue, les coordonnées de position. Il semble que c'est exactement ce que vous essayez de faire.
Vous pouvez aussi essayer cette application http://pdfbox.apache.org/. Un exemple peut être trouvé à https://www.jinises.com
votre demande initiale est "j'ai un gros fichier PDF qui est une carte de plancher d'un bâtiment. "
J'ai peur de vous dire ce qui pourrait être plus difficile que vous devinez.
Cause la dernière lib chacuns utiliser pour analyser le pdf est smalot, et celui-ci est connu, à la rencontre de problème concernant le fichier de grande taille.
Ici aussi, Lookig pour un vrai lib php pour parser pdf, sans aucun souvenir de pointe qui ont besoin d'une configuration de php pour désactiver la limite de mémoire comme beaucoup de "développeurs" n' (qui je pense est vraiment pas conseillé).
voir ce post pour plus de détails sur smalot performance : https://github.com/smalot/pdfparser/issues/163