Qu'est-ce qu'un bon convertisseur PDF en HTML pour Ruby on Rails?
Je suis en train de convertir en programmant PDF au format HTML. Jusqu'à présent, j'ai été en utilisant pdftohtml mais nos utilisateurs ne sont pas heureux avec les résultats.
Voici ce que j'ai besoin de :
- Je suis en utilisant Ruby on Rails, mais un outil de travail sous Unix travail comme je peux l'appeler à partir de la ligne de commande. Mais bien sûr un beau bijou ou un plugin, ce serait parfait.
- Je préfère qu'il soit open source
- Il doit être en mesure de le manipuler des images
- Ce serait bien si il y avait une option pour annuler les images, si nécessaire
- Il doit être stable
- Il doit renvoyer le code html avec une mise en page proche de l'original en pdf (j'ai essayé pdftohtml et le résultat n'est pas bon dans beaucoup de cas)
source d'informationauteur marcgg
Vous devez vous connecter pour publier un commentaire.
Ici sont un couple plus de solutions de rechange à pdftohtml/xpdf:
Pour les fichiers PDF pour la conversion HTML, pdf2htmlEX semble être une très bonne outil de recherche à tous les exemples/exemples):
https://github.com/coolwanglu/pdf2htmlEX
Si tout le reste échoue, vous pourriez tourner chaque page dans un fichier image (à l'aide d'image magick ou similaire) et l'affichage des images, à la http://books.google.com ou http://safari.oreilly.com. Ce serait une largeur de bande de porcs, mais vous obtenez la fidélité à l'original.
J'ai passé un certain temps à travailler sur un projet de recherche qui consistait à prendre les Pdf d'entrée. Ce que vous proposez est vraiment une tâche difficile, et aucun logiciel va le faire parfaitement. Alors que le HTML a une certaine structure, comme
<p>
le format PDF est purement de présentation. Un document HTML va dire, "ceci est un paragraphe. C'est une image." et la présentation est interprété à partir de cela. Un document PDF disent en substance: "ce personnage devrait être rendu à la position X,Y. le prochain caractère sera affiché à la position..." etc. Donc, même la construction de paragraphes, de ce que peut être dur.Je travaillais en Java, donc je ne pense pas que le programme que j'ai utilisé sera d'une grande aide pour vous. Aussi, je me souviens que certains PDF générateurs d'épissage une image en plusieurs petites images et les afficher les uns à côté des autres--qui a été un énorme douleur.
Est-il possible que vous pouvez travailler avec un format différent, ou inférieure à vos attentes? Vous pourriez faire de l'image, chose que Wayne suggère, mais alors il n'est pas vraiment HTML (et il n'est pas accessible, est-ce une préoccupation pour vous?). Qui pourrait juste être quelque chose qui vivent avec vous.
Essayez d'utiliser poppler ou xpdf. Mais il est besoin d'un peu de magie et de liaison.
vous pouvez essayer http://www.pdf-to-html-word.com/pdf-to-html
qui fonctionne vraiment bien. J'ai payé pour ça, après vérification de ses fonctionnalités. Vous avez un voyage gratuit pour le tester.
Ou alors utiliser Acrobat Pro et l'Enregistrer au format HTML avec CSS. Qui travaille trop. Mais c'est une douleur dans le** de le faire avec un tas de fichiers.
Pouvez essayer cette. J'ai pris une première coupe à envelopper Ruby autour de la pdftohtml utilitaire. Bijou disponible ici: http://gemcutter.org/gems/pdftohtmlr
Après l'utilisation de pdftohtml pendant un certain temps et n'étant pas satisfaite avec les résultats d'affichage de la version html, je suis en train d'étudier à l'aide de google apps document de l'API ou de l'scribd API (mon préféré pour le moment)
http://www.scribd.com/developers/api
En fin de compte, je vais probablement utiliser pdftohtml à il suffit d'extraire le contenu du texte du fichier pdf
et le scribd api pour afficher le fichier d'origine sur la page utilisateur
J'ai juste sorti un rubis gemme pour convertir des documents avec open office sans tête (via poyconverter ou jodconverter). il intègre également d'autres quelques librairies (pdftools et netpbm) pour extraire du texte dans des images à partir de fichiers pdf.
Vous pouvez le trouver ici https://github.com/itkin/proselytism.git
N'hésitez pas à ajouter vos propres convertisseurs et me rendre compte de certaines questions