Qu'est-ce qu'un bon convertisseur PDF en HTML pour Ruby on Rails?

Je suis en train de convertir en programmant PDF au format HTML. Jusqu'à présent, j'ai été en utilisant pdftohtml mais nos utilisateurs ne sont pas heureux avec les résultats.

Voici ce que j'ai besoin de :

Je suis en utilisant Ruby on Rails, mais un outil de travail sous Unix travail comme je peux l'appeler à partir de la ligne de commande. Mais bien sûr un beau bijou ou un plugin, ce serait parfait.
Je préfère qu'il soit open source
Il doit être en mesure de le manipuler des images
Ce serait bien si il y avait une option pour annuler les images, si nécessaire
Il doit être stable
Il doit renvoyer le code html avec une mise en page proche de l'original en pdf (j'ai essayé pdftohtml et le résultat n'est pas bon dans beaucoup de cas)

source d'informationauteur marcgg

10

Ici sont un couple plus de solutions de rechange à pdftohtml/xpdf:
- Adobe propose un logiciel gratuit en ligne de fichiers PDF au format HTML ou texte service de conversion de. Il peut prendre une minute ou deux pour obtenir le document, mais je soupçonne que cette option serait de vous donner les meilleurs résultats.
- Il y a un pdf-reader ruby gem qui vous donnera accès à l'intérieur du fichier PDF. Cela impliquerait de certains projets de développement/extension de votre part, mais vous pouvez l'utiliser pour analyser le fichier PDF et de générer de beaux HTML. Cela pourrait être plus facile qu'il n'y paraît si vous savez quel type de fichiers que vos utilisateurs se convertir à l'avant (comme si ils travaillent avec des formulaires normalisés).
- Vous pouvez avoir plus d'options si vous utilisez ghostscript (gem trouvé ici) pour convertir le fichier PDF en un autre format. Le bijou peut générer des images (png, jpg, etc) à partir d'un fichier PDF, mais vous pourriez avoir la meilleure chance de le convertir en un fichier PostScript depuis il semble y avoir un tas de "PostScript à[insérer le format ici]" les convertisseurs.
5

Pour les fichiers PDF pour la conversion HTML, pdf2htmlEX semble être une très bonne outil de recherche à tous les exemples/exemples):

https://github.com/coolwanglu/pdf2htmlEX
3

Si tout le reste échoue, vous pourriez tourner chaque page dans un fichier image (à l'aide d'image magick ou similaire) et l'affichage des images, à la http://books.google.com ou http://safari.oreilly.com. Ce serait une largeur de bande de porcs, mais vous obtenez la fidélité à l'original.
2

J'ai passé un certain temps à travailler sur un projet de recherche qui consistait à prendre les Pdf d'entrée. Ce que vous proposez est vraiment une tâche difficile, et aucun logiciel va le faire parfaitement. Alors que le HTML a une certaine structure, comme <p>le format PDF est purement de présentation. Un document HTML va dire, "ceci est un paragraphe. C'est une image." et la présentation est interprété à partir de cela. Un document PDF disent en substance: "ce personnage devrait être rendu à la position X,Y. le prochain caractère sera affiché à la position..." etc. Donc, même la construction de paragraphes, de ce que peut être dur.

Je travaillais en Java, donc je ne pense pas que le programme que j'ai utilisé sera d'une grande aide pour vous. Aussi, je me souviens que certains PDF générateurs d'épissage une image en plusieurs petites images et les afficher les uns à côté des autres--qui a été un énorme douleur.

Est-il possible que vous pouvez travailler avec un format différent, ou inférieure à vos attentes? Vous pourriez faire de l'image, chose que Wayne suggère, mais alors il n'est pas vraiment HTML (et il n'est pas accessible, est-ce une préoccupation pour vous?). Qui pourrait juste être quelque chose qui vivent avec vous.
0

Essayez d'utiliser poppler ou xpdf. Mais il est besoin d'un peu de magie et de liaison.
0

vous pouvez essayer http://www.pdf-to-html-word.com/pdf-to-html
qui fonctionne vraiment bien. J'ai payé pour ça, après vérification de ses fonctionnalités. Vous avez un voyage gratuit pour le tester.
Ou alors utiliser Acrobat Pro et l'Enregistrer au format HTML avec CSS. Qui travaille trop. Mais c'est une douleur dans le** de le faire avec un tas de fichiers.
0

Pouvez essayer cette. J'ai pris une première coupe à envelopper Ruby autour de la pdftohtml utilitaire. Bijou disponible ici: http://gemcutter.org/gems/pdftohtmlr
0

Après l'utilisation de pdftohtml pendant un certain temps et n'étant pas satisfaite avec les résultats d'affichage de la version html, je suis en train d'étudier à l'aide de google apps document de l'API ou de l'scribd API (mon préféré pour le moment)

http://www.scribd.com/developers/api

En fin de compte, je vais probablement utiliser pdftohtml à il suffit d'extraire le contenu du texte du fichier pdf
et le scribd api pour afficher le fichier d'origine sur la page utilisateur
0

J'ai juste sorti un rubis gemme pour convertir des documents avec open office sans tête (via poyconverter ou jodconverter). il intègre également d'autres quelques librairies (pdftools et netpbm) pour extraire du texte dans des images à partir de fichiers pdf.

Vous pouvez le trouver ici https://github.com/itkin/proselytism.git

N'hésitez pas à ajouter vos propres convertisseurs et me rendre compte de certaines questions

Vous devez vous connecter pour publier un commentaire.