Ruby: Lecture des fichiers PDF
Je suis à la recherche d'une façon rapide et fiable à lire/analyser des gros fichiers PDF en Ruby (sur Linux et OSX).
Jusqu'à maintenant j'ai trouvé la plutôt vieille et simple PDF-toolkit (un pdftotext-wrapper) et PDF-reader, qui a été incapable de lire la plupart de mes fichiers. Bien que les deux bibliothèques de fournir exactement la fonctionnalité que je cherchais.
Ma question: Ai-je raté quelque chose? Est-il un outil mieux adapté (plus rapide et plus fiable) pour résoudre mon problème?
Vous devez vous connecter pour publier un commentaire.
Vous pourriez trouver Docsplit utile:
Après avoir essayé différentes méthodes, je suis en utilisant PDF-Toolkit maintenant. C'est assez vieux, mais il est rapide, stable et fiable. En outre, il n'a vraiment pas besoin d'être nouvelle, car elle enveloppe le xpdf utilitaires de ligne de commande.
Vous pouvez utiliser JRuby et Java PDF library analyseur tels que ApachePDFBox (https://www.ohloh.net/p/pdfbox). Voir aussi http://java-source.net/open-source/pdf-libraries.
Voici quelques options:
http://en.wikipedia.org/wiki/List_of_PDF_software
À partir de ce lien, et la recherche de sourceforge, il y a quelques utilitaires de ligne de commande qui pourrait faire ce que vous voulez, comme celui-ci: http://pdftohtml.sourceforge.net/
En fonction de vos besoins et de ce que les fichiers Pdf regarder le souhaitez, vous pouvez chercher à l'aide de l'API Google Docs (télécharger le fichier PDF, puis de le télécharger sous forme de texte), ou pourrait essayer quelque chose comme gocr. J'ai eu beaucoup de chance d'analyse le texte de l'image avec gocr dans le passé, et vous avez juste à rebondir à la coque pour le faire, comme
gocr -i whatever.pdf
(je pense qu'il fonctionne avec des fichiers Pdf).L'inconvénient est qu'ils ne sont pas des pur-Ruby implémentations, mais beaucoup de la bonne (et gratuit) des projets OCR semble être fait de cette manière.
Si vous avez juste besoin d'obtenir le contenu du texte d'un fichier pdf, pdftohtml sur sourceforge est efficace.
il n'est pas adapté pour gérer les images.
Avez-vous un look à la CombinePDF bibliothèque?
C'est un pur ruby solution qui permet à certains de manipulation de PDF, telles que l'extraction de pages, en superposant un PDF sur une autre page, numérotation des pages, l'écriture de texte de base et des tables, etc".
Voici un exemple pour estompe un fichier PDF existant avec un logo. L'exemple lit un fichier PDF, extrait d'une page à utiliser comme un timbre timbres et un autre fichier PDF.
Vous pouvez également timbre de texte, le nombre de pages ou de l'utilisation :
Il n'est pas destiné pour les opérations complexes, mais il complète la plupart des PDF de création de bibliothèques et permet d'utiliser des modèles PDF au lieu d'écrire le tout à partir de zéro.