Manière la plus facile ou Meilleurs outils pour convertir le texte mot à nettoyer (X)HTML
Cela pourrait avoir été posée d'une autre manière. Je ne suis pas le faire à la volée. Une fois dans un bien que nous obtenir des morceaux de contenu dans les fichiers word qui ont le tiret cadratin, le gras, l'italique du texte et de bloquer les guillemets. Est-il un bon outil afin de le convertir en un propre code html.
Le contraire de ce que d'autres approches gens prennent.
OriginalL'auteur Boris Smirnov | 2008-11-25
Vous devez vous connecter pour publier un commentaire.
Je suis surpris que personne ne l'a mentionné, mais HTML Tidy normalement fait un bon travail de cette. Je n'ai pas utilisé récemment, mais je comprends que c'est approprié pour le nettoyage du code HTML contenu exposé à partir de Word en particulier.
OriginalL'auteur Andrew Ferrier
Un long de temps auparavant, j'ai été chargé de prendre raisonnablement bien structurés multi-mégaoctet document word et de le convertir en une série de pages HTML (environ 20 000 d'entre eux!) Ceci a été accompli par d'enregistrer le document word au format RTF (Word, Enregistrer sous HTML de sortie était beaucoup trop "sale") et de convertir le format RTF en HTML via un script Perl. La conversion est un processus de passage de... d'Abord nettoyer commune erreurs de mise en forme, puis de convertir les nettoyer RTF en HTML.
Depuis le document éditeurs ont continué à maintenir le document Word, il payé pour codifier la commune erreurs de mise en forme lors de la première passe parce que les erreurs se répétait souvent, même après avoir été corrigé.
Par ailleurs, ce processus a montré une très sceptique gestion comment en seulement 40 heures (ou plus) un bon programmeur pourrait produire ~20,000 pages web et les conserver jusqu'à la date indéfiniment, tandis que les auteurs d'origine (qui est le temps était encore plus précieux) aurait passer plusieurs centaines d'heures de faire la conversion, et aurait été contraint de maintenir le HTML résultant à la main par la suite.
OriginalL'auteur Chris Nava
J'utilise TinyMCE à démonter et de les convertir unique de Documents Word. Il est libre, à condition que vous pouvez télécharger sur votre site web hôte (en supposant que vous en avez un). - Je protéger mon installation pour éviter spammage, mais vous pouvez utiliser leur démo à http://tinymce.moxiecode.com/tryit/full.php.
C'est en fait le job mieux que la plupart des stand-alone programmes de conversion que j'ai essayé, au moins pour la façon dont je l'utilise.
OriginalL'auteur Eric Seiler
La plus simple et la plus rapide pour moi, c'est de copier tout le texte à partir de Word et de le coller dans l'éditeur wysiwyg de Dreamweaver (n'importe quelle version de MX pour CS3) à l'aide de la collage spécial de commande et le choix de garder la structure du document. Il fonctionne très bien si votre document word n'est pas trop complexe, et si c'est vraiment complexe, vous avez juste besoin d'un supplément de l'édition dans la vue de code. Le html résultant est vraiment très propre.
Le seul problème avec cette méthode est que vous avez besoin de Dreamweaver, qui n'est pas libre. De toute façon, vous pouvez tester la méthode avec la version d'essai de DW.
OriginalL'auteur alexmeia
J'ai écrit un outil d'années appelé CleanXHTML 1.2 pour Microsoft Office Word 2003 (.NET 2.0). Ceci est conçu pour fonctionner à l'intérieur de de la Parole et permet l'export XHTML basé sur ce qui est mis en évidence (ou choisi) dans le document. J'ai été assis sur un Word version 2007 pendant des années.
OriginalL'auteur rasx
J'ai écrit un utilitaire de ligne de commande pour ce faire: pour plus de détails, voir cette Doc to HTML converter.
OriginalL'auteur ChrisW
Vous pouvez essayer ce Doc to HTML Converter. Il n'est pas libre, mais il n'résoudre le problème.
OriginalL'auteur GreyWolf
Necromancing:
Ouvrir Word un Document dans Word 2013.
Enregistrer odt (OpenOffice Document).
Ouvrir avec OpenOffice
Et utiliser
"Save As" ==> HTML-Document
ou utiliser
L'exportation, nécessiteront la JRE installé, Enregistrer en tant que ne sera pas.
Pour Word, vous pouvez utiliser COM interop, ou vous pouvez utiliser Aspose Mots.
Vous pouvez également utiliser directement aspose.mots, et il suffit de retirer le "droit d'auteur" texte présentant de requête xpath 😉
OriginalL'auteur Stefan Steiger
Mot est très "sale" avec son propre codage. Il peut avoir imbriqués gras balises vides, en gras les balises et toutes sortes de méchanceté selon que l'utilisateur a utilisé les styles intégrés (titre 1, titre 2, etc.) vs de changer de taille de police. Tout ce qui prend la Parole doc et tente de les "convertir" en HTML héritera de la même balise problèmes.
La meilleure chose à faire est d'enregistrer une macro dans Word pour effectuer plusieurs recherche et remplacement par des actions sur des choses évidentes, comme M-tirets, les onglets, les points de suspension, etc.
Puis remplacer les sauts de paragraphe ^p^p avec un espace réservé (comme ~), puis remplacer tout seul pauses (^p) avec un espace, puis le remplacer ~ avec
</p>^p</p>
pour générer le code HTML paragraphes.Puis de copier l'intégralité du document, de la coller dans le bloc-notes pour supprimer toute non-ascii balisage, puis copiez et collez dans votre éditeur HTML, et marquer manuellement les 10% qui reste, comme le gras italique correspondent pas à des étiquettes de paragraphe, etc.
Rien ne sera jamais aussi bon que la main de codage, donc, avec cette technique, la plupart de la gros du travail est fait, et vous avez propre texte commence à partir.
OriginalL'auteur Diodeus - James MacFarlane
Convertir de RTF et de l'utilisation d'une transformation XSLT pour convertir les riches texte au format HTML. Je recommande d'essayer d'obtenir tout ce que RTF au lieu de .docx ou quel que soit le format de Word.
OriginalL'auteur Ty.
Voulez-vous donner à cet outil d'essayer: Visionneuse De Documents OpenXML.
Il propose un outil de ligne de commande pour la conversion OpenXML (DOCX) documents en HTML.
OriginalL'auteur Dirk Vollmar
Si vous pouvez installer Word 2003 ou 2007, vous pouvez utiliser le nouveau format OOXML de générer des fichiers XML. Le format est assez weir...complexe, mais au moins, vous pouvez l'analyser avec des outils standard. Qui devraient vous permettre d'extraire les informations dont vous avez besoin à partir du fichier.
Le fichier OfficeXMLMarkupExplained_en.docx contient une introduction et beaucoup de détails comment OOXML œuvres.
OriginalL'auteur Aaron Digulla
Aussi essayer http://www.manglebracket.com/, c'est une application web où vous téléchargez un document Word et il la convertit en HTML avec diverses (trop nombreuses) options. Parfait pour ad-hoc de conversion, lors de votre rédacteur vous envoie un communiqué de presse dans Word et que vous voulez le mettre sur le site, par exemple.
OriginalL'auteur jpsimons
WordDown est un bookmarklet pour convertir des documents Microsoft Word au format HTML5. Il change non seulement la syntaxe du document, mais aussi la sémantique et l'aspect visuel. Dans mon cas de test, le résultat visuel est très agréable par rapport au document original. Si vous souhaitez imprimer le document converti, vous devriez savoir que le petit drapeau rouge sur le côté gauche n'est pas incluse dans l'impression de la feuille de style.
OriginalL'auteur Stefan Schmidt