Comment puis-je extraire des images à partir d'un fichier PDF?
J'ai besoin d'extraire toutes les images d'un fichier PDF sur mon serveur. Je ne veux pas les pages d'un document PDF, seules les images à leur taille d'origine et de la résolution.
Comment pourrais-je faire cela avec Perl, PHP ou tout autre UNIX app (que je voudrais appeler avec la fonction exec de PHP)?
- Comment savez-vous où chaque image est sur la page? Au meilleur de ma connaissance, les fichiers PDF ne pas enregistrer ces informations.
Vous devez vous connecter pour publier un commentaire.
pdfimages est juste que. Il fait partie de la poppler-utils et xpdf-utils paquets.
À partir de la page de manuel:
En ce qui concerne Perl, avez-vous vérifié CPAN?
pdfimages est une bonne chose car il ne réencode pas, mais seulement d'extraire des fichiers jpeg. Mais il y a un bug:
pdfimages vient de package "poppler-utils" ou de la plus grande "xpdf-utils". Au moins dans Ubuntu "poppler-utils" est déjà pré-installé. Le pdfimages dans poppler-utils 10.0.3 (Ubuntu 9.04 Jaunty) n'est toujours pas réagi à l'option "-j" extraire "."jpg". Il a toujours des extraits ".ppm".
Comme une solution de contournement, vous pouvez remplacer "poppler-utils" avec "xpdf-utils":
$ sudo apt-get install xpdf-utils
avec nos meilleures salutations,
+++ Oliver
-j
commutateur