Comment convertir un PDF en HTML?
Est-il une bibliothèque digne de ce nom que je peux utiliser pour convertir les PDF en format HTML ou tout autre format qui peut être converti en HTML facilement?
J'ai cherché sur des questions similaires, mais à pas de chance.
Je veux être en mesure d'extraire du texte à partir de fichiers PDF, éventuellement des images. Je ne suis pas à la recherche à intégrer un document PDF dans le HTML.
source d'informationauteur Luchian Grigore
Vous devez vous connecter pour publier un commentaire.
Comme je l'ai mentionné dans le commentaire ci-dessus, il est certainement possible de convertir les pdf en format html à l'aide de l'outil Able2Extract7 qui peut être téléchargé à partir de ici
J'utilise cet outil depuis presque 2 ans maintenant et je suis très heureux avec elle. Cet outil vous permet de convertir des fichiers PDF à Word, Excel, PowerPoint, Publisher, HTMLOO etc. Voir la capture d'écran
Imp Note: Cet outil n'est pas un freeware.
HTH
Il est techniquement impossible de convertir un fichier PDF en format HTML. Le format PDF est plus comme une "toile", où l'on "place" vos blocs de texte et des images, alors que le HTML soit des besoins CSS ou d'un lot de tables à "placer" les blocs. En outre, les fichiers PDF incorporer les images, alors que HTML simplement appel à d'autres fichiers.
Il existe de nombreux autres exemples de différences, mais essentiellement, c'est comme demander pour convertir une image ou une vidéo avec du texte dedans.
Vous pouvez cependant lire à partir d'un fichier PDF, puis en extraire le texte et les images, à l'aide de bibliothèques ou d'autres techniques avancées. .Net a un peu de bibliothèques, par exemple : http://forums.asp.net/post/2167442.aspx
Si vous avez seulement besoin de convertir un fichier à la fois, vous pouvez ouvrir le fichier pdf dans Illustrator par exemple, puis de les exporter qu'en html. Ou vous pouvez sélectionner tout le document (ctrl+a), le copier et le coller dans Word, puis enregistrez le résultat en html. Il sera loin d'être parfait, mais ce sera un début.
Si vous êtes sur Linux, essayez pdftohtml:
L'open source ebook converter Calibre peut aussi convertir les fichiers PDF au format HTML et est disponible sur MacOS, Windows et Linux.
Télécharger
de http://pdfbox.apache.org/
Veuillez noter: les Images ne sont pas transférées à la sortie HTML.
Il n'est pas difficile de convertir les PDF en format HTML. Il existe de nombreuses options en ligne, qui peut, cependant, exposer vos données à des tiers. Suivez ces étapes, et la sortie est grande.
Ouvrir le PDF2HTMLEX page.
(Vous pouvez soit suivre les étapes suivantes, dont j'ai parlé, ou suivez les instructions de la page).
Le package est disponible au téléchargement pour Windows à partir d'ici.
Parmi les nombreuses options disponibles, je vous conseille de télécharger "pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip (pdf2htmlEx.exe est compressé avec UPX)"
Après le téléchargement et l'onu-la compression de conversion est tout simplement une commande cmd loin.
Commande Finale:
(Bien sûr, vous pouvez raccourcir le nom du dossier, cependant, j'ai gardé la même chose que vous verrez une fois le dé-zipper le téléchargement. Je suis en supposant que vous pouvez changer le répertoire dans cmd dans le dossier désiré ou encore Google comment.)
abc.pdf seront convertis en HTML et sera enregistré comme abc.html dans le même dossier que votre fichier exe.
Pas sûr que cela peut être utile, mais si vous avez besoin d'un temps de conversion, vous pouvez essayer cet instrument en ligne: https://www.readkong.com/
Utilisé ce site plusieurs fois. Il produit du code html qui est identique au format pdf source d'origine. Pas laid et brisé de balisage, pas de code html mashup et ainsi de suite, même pour de très complexe pdf.
Oui, c'est certainement possible.
Si votre sur ubuntu linux
puis
Si vous voulez voir ce que tous les drapeaux dire ensuite il suffit de taper
Si vous n'êtes pas sur linux, il existe une pléthore d'outils que vous pouvez utiliser pour ce faire.