Outil pour comparer un grand nombre de fichiers PDF?
J'ai besoin de comparer grand nombre de fichiers PDF pour il optiques de contenu. Parce que des fichiers au format PDF a été créé sur différentes plates-formes et avec différentes versions du logiciel, il existe des différences structurelles. Par exemple:
- la segmentation de texte peuvent être différents
- l'ordre d'écriture peuvent être différents
- la position peut varier de quelques pixels
Il faut comparer le contenu comme un homme et non pas la structure interne. Je veux tester les régressions entre les différentes versions du générateur de PDF que nous avons utilisé.
- Une partie de la solution serait d'utiliser pdftotext et de comparer le texte contenu.
- Mais cela va ignorer tous les non texte des informations comme des lignes, des boîtes, des images, des graphiques, etc. Je pense aussi qu'il pas montrer l'optique des postes de texte d'autre de la position structurelle.
- Je suis d'accord, ce n'est pas un critère suffisant. D'autre part, il est un critère nécessaire, par conséquent, il est approprié qu'un test unitaire.
- N'a jamais vraiment été dans votre situation, mais j'ai essayé ExamDiff Pro pour comparer des fichiers Pdf et il a travaillé pour moi.
- Vous pouvez toujours ajouter une meilleure unité de test plus tard!
- Si il y a des images sur les pages, et que vous voulez un homme-comme l'évaluation, pour ceux qui, il n'ya pas beaucoup que vous pouvez faire, mais avoir un homme comparer ces pages, sauf si vous voulez travailler sur un tout nouveau projet, tout aussi grande que celle en cours, pour l'essayer.
- Je pense que Bitmap vérifier devrait fonctionner dans votre cas. J'utilise un outil d'automatisation de comparer 2 images bitmap à l'aide de check point
- Ce que l'un d'intelligent, \\*#?`%& décision de fermer cette question que "non constructive" ! (Il faut l'adore lorsque la question de fermeture-les modérateurs de détruire le contenu de la communauté qui porte des balises où ces mêmes mods n'ont pas la réputation personnelle en!)
- Un autre cas, inutile de la fermeture d'une question relative à un très pertinente realworld de cas d'utilisation. Je voudrais bien savoir comment faire pour proposer un son raisonnement sur Meta, cela va arrêter par la suite. Il se sent juste si mal chaque fois qu'il se passe.
- connexes: superuser.com/q/46123/35237
- Il y a un accès GRATUIT à la bibliothèque de comparer pdf pixel par pixel. Consultez ce blog. testautomationguru.com/...
Vous devez vous connecter pour publier un commentaire.
Car il n'existe pas d'outil qui nous ont écrit. Vous pouvez télécharger le i-net le contenu PDF comparer et de l'utiliser. J'espère que d'aider les autres avec le même problème. Si vous avez des problèmes ou si vous avez des commentaires pour nous, alors vous pouvez contacter notre support.
Il est en fait un diffpdf outil.
http://www.qtrac.eu/diffpdf.html
Sa faiblesse est qu'il ne réagit pas bien quand les additions nouveau texte maj partiellement à une nouvelle page. Par exemple, si l'ancienne page 4 devrait être par rapport à la fin de la page 5 et le début de la page 6, vous aurez besoin de passer des paramètres à comparer les deux tranches séparément.
J'ai utilisé la maison-cuit script qui
Logiciel utilisé:
Pour:
Contre:
J'ai été à la recherche d'un outil qui permettrait de faire la même chose sur PDF/PostScript niveau.
Voici comment notre script appelle les services publics (notez que ImageMagick utilise GhostScript en coulisses pour faire le PDF->PNG conversion):
for i in $(seq -w 0 05); do /cygdrive/c/Progra~1/ImageMagick-6.6.9-Q8/composite.exe 1-$i.png 2-$i.png result-$i.png; done
pdfdiff
répertoire et en outre imprime les numéros des pages qui diffèrent entre les deux fichiers Pdf.Je ne semble pas être en mesure de voir ça ici, donc, ici, il est: via superuser: Comment comparer les différences entre deux fichiers PDF? (réponse #229891, par @slestak), il est
https://github.com/vslavik/diff-pdf
(étapes de génération pour Ubuntu Natty peut être trouvé dans get-diff-pdf.sh)
Aussi loin que je peux voir, il se superpose au texte/graphique de chaque page du fichier pdf(s), vous permettant de voir facilement si il y a des changements...
Cheers!
Nous avons également utilisé pdftotext (voir Sklivvz de réponse) pour générer des versions ASCII des fichiers Pdf et wdiff de les comparer.
Utilisation pdftotext de
-layout
interrupteur afin d'améliorer la lisibilité et de se faire une idée des changements dans la mise en page.Pour obtenir de belles couleur de sortie de wdiff, utilisez ce script:
Je pense que votre meilleure approche serait de convertir le fichier PDF en images à une résolution correcte et de faire une image de comparer.
Pour générer des images d'un PDF, vous pouvez utiliser Adobe PDF Library ou la solution proposée à Le meilleur moyen de convertir des fichiers pdf en fichiers tiff.
De comparer l'généré des fichiers TIFF j'ai trouvé GNU tiffcmp (pour la partie windows de GnuWin32 tiff) et tiffinfo fait un bon travail. Utilisation tiffcmp -l et compter le nombre de lignes de sortie pour trouver toutes les différences. Si vous êtes heureux d'avoir une petite quantité de modifier le contenu (par exemple, l'anti-aliasing différences) puis utiliser tiffinfo pour compter le nombre total de pixels et vous pouvez ensuite générer une différence en pourcentage de la valeur.
Par la voie de tous ceux qui font de simples PDF comparaison où la structure n'a pas changé, il est possible d'utiliser la ligne de commande diff et d'ignorer certains modèles, par exemple avec GNU diff 2.7:
Cela a encore le problème qu'il n'est pas toujours d'obtenir les changements générés noms de police.
Notre produit, PDF Comparateur http://www.premediasystems.com/pdfc.html " va faire assez d'une manière élégante et efficace. C'est pas gratuit, et est un Mac OS X uniquement de l'application.
ImageMagick
, voir certains de mes autres réponses: une -- deux -- trois.En fonction de vos besoins, une conversion de texte solution serait la méthode la plus simple et la plus directe. Je ne pense que le bitmap idée était assez cool.
blubeam pdf logiciel va le faire pour vous
Vous pouvez lot comparer pdf fichiers avec Tarkware Pdf Comparer. Mais ce n'est pas gratuit et ne nécessite Adobe Acrobat.