Comment puis-je extraire des images à partir d'un fichier PDF?

J'ai besoin d'extraire toutes les images d'un fichier PDF sur mon serveur. Je ne veux pas les pages d'un document PDF, seules les images à leur taille d'origine et de la résolution.

Comment pourrais-je faire cela avec Perl, PHP ou tout autre UNIX app (que je voudrais appeler avec la fonction exec de PHP)?

Comment savez-vous où chaque image est sur la page? Au meilleur de ma connaissance, les fichiers PDF ne pas enregistrer ces informations.

InformationsquelleAutor Anil | 2009-01-10

22

pdfimages est juste que. Il fait partie de la poppler-utils et xpdf-utils paquets.

À partir de la page de manuel:

Pdfimages enregistre les images à partir d'un Format de Document Portable (PDF) en tant que fichier Portable Pixmap (PPM), Portable Bitmap (PBM), ou des fichiers JPEG.

Pdfimages lit le fichier PDF, recherche un ou de plusieurs pages, fichier PDF, et écrit un PPM, PBM, ou fichier JPEG pour chaque image, image-root-nnn.xxx, où nnn est le numéro de l'image et xxx est le type d'image (.ppm .pbm, .jpg).

NB: pdfimages extrait les données d'image brutes à partir du fichier PDF, sans effectuer aucune supplémentaires transforme. Toute rotation, l'écrêtage, inversion des couleurs, etc. fait par le PDF flux de contenu est ignoré.
- Je pense que le paquet est installé lorsque vous installez xpdf.
- c'est correct aussi, les deux paquets ont pdfimages.
InformationsquelleAutor Luis Melgratti
11

En ce qui concerne Perl, avez-vous vérifié CPAN?
- PDF::GetImages - obtenir des images de document pdf
- PDF::ROC - obtenir la reconnaissance optique des caractères et des images d'un fichier pdf
- PDF::OCR2 - extraire tous les textes et toutes les images ocr de pdf
InformationsquelleAutor Kent Fredric
2

pdfimages est une bonne chose car il ne réencode pas, mais seulement d'extraire des fichiers jpeg. Mais il y a un bug:

pdfimages vient de package "poppler-utils" ou de la plus grande "xpdf-utils". Au moins dans Ubuntu "poppler-utils" est déjà pré-installé. Le pdfimages dans poppler-utils 10.0.3 (Ubuntu 9.04 Jaunty) n'est toujours pas réagi à l'option "-j" extraire "."jpg". Il a toujours des extraits ".ppm".

Comme une solution de contournement, vous pouvez remplacer "poppler-utils" avec "xpdf-utils":
$ sudo apt-get install xpdf-utils

avec nos meilleures salutations,

+++ Oliver
- sur mon serveur ubuntu ni xpdf, ni poppler reconnaît le -j commutateur
InformationsquelleAutor

Vous devez vous connecter pour publier un commentaire.