Comment puis-je supprimer toutes les images/dessins à partir d'un fichier PDF et de le laisser uniquement le texte en Java?
J'ai un fichier PDF de sortie à partir d'un ROC processeur, ce ROC processeur reconnaît l'image, ajoute le texte au format pdf, mais à la fin des endroits à faible qualité de l'image à la place de celui d'origine (je n'ai aucune idée de pourquoi quelqu'un voudrait le faire, mais ils font).
Donc, je voudrais obtenir ce PDF, supprimer le flux de l'image et de laisser le texte seul, de sorte que je puisse obtenir et d'importation (à l'aide de la bibliothèque iText page importer) un fichier PDF que je suis en créant moi-même avec l'image réelle.
Et avant que quelqu'un demande, j'ai déjà essayé d'utiliser un autre outil pour extraire les coordonnées de texte (JPedal) mais quand je dessine le texte sur mon PDF, il n'est pas à la même position que celui d'origine.
Je préfère avoir ce fait en Java, mais si un autre outil peut faire mieux, faites le moi savoir. Et il pourrait être l'image que l'enlèvement, je peux vivre avec un PDF avec les dessins.
JPEG. TIFF, GIF et PNG.
OriginalL'auteur Maurício Linhares | 2011-07-26
Vous devez vous connecter pour publier un commentaire.
J'ai utilisé Apache PDFBox dans une situation similaire.
À être un peu plus spécifique, essayez quelque chose comme ça:
Il est censé supprimer tous les types d'images (png, jpeg, ...). Il devrait fonctionner comme ça:
Exemple d'article http://s3.postimage.org/28f6boykk/before.jpg.
Merci! Je vais l'essayer!
Et il l'a fait! Merci beaucoup @IceGlow!
J'ai essayé la même chose, mais lorsqu'il enregistre le PDF, toutes les Images sont intacts. Je peux voir que l'objet de la ressource n'a pas toutes les images après clear() de l'opération. De l'aide s'il vous plaît?
Cette solution ne fonctionne que pour de simples fichiers Pdf: il supprime l'image xobjects immédiatement associés à la page, mais l'image xobjects peut également être associé avec référencé forme xobjects ou avec des motifs; les images peuvent même être insérée. De plus, à proprement parler, la suppression de l'image xobject de ressources, tout en ne retirant pas les opérations associées dans le contenu de la page stream le fichier n'est pas conforme à la spécification PDF .
OriginalL'auteur IceGlow
Vous avez besoin de parser le document comme suit:
Cela fonctionne! Le chargement et le changement des pages est beaucoup plus rapide maintenant. La taille du fichier n'a pas diminué (76MB avec des images, des 78MB sans les images). Est-il un moyen de se débarrasser des images elles-mêmes, de sorte que les fichiers deviennent encore plus petit?
Ce code fonctionne.
C'est une meilleure solution que l'on a accepté, mais il n'a également supprimer XObject formes, qui sont également invoqués par le "Faire".
Où puis-je trouver la liste de tous les opérateurs à la description?
OriginalL'auteur paf.goncalves