Comment convertir Doc/Docx en un seul fichier XML automatiquement?
Lorsque vous ouvrez Word, il vous permet de vous enregistrer comme Word au format Open XML. J'ai vu des posts concernant l'ouverture du fichier docx en tant que zip, puis l'extraction de choses à partir de là. Mais ce que je veux vraiment, c'est un moyen de faire de l'docx en un seul XML exactement comme quand on fait "enregistrer sous" dans MS Office. Que faire?
Et comment le faire pour le .format doc ?
Note: je tiens à le faire par programmation. De préférence sous Linux, les conditions de développement avec PHP. Mais si que n'est pas disponible, d'autres langues seront faites. Enfin, si il descend à lui, je peux envisager de faire tourner un serveur Windows pour ce faire.
OriginalL'auteur samxli | 2012-08-13
Vous devez vous connecter pour publier un commentaire.
Désolé pour ressusciter un mort thread, mais je viens de trouver une réponse pour les fichiers DOCX. Un fichier DOCX est juste une archive ZIP des fichiers XML. Donc, pour extraire le contenu de l'un de ses fichiers, v. gr. word/document.xml sous un environnement Linux, vous devez lancer la décompression:
Pour la capture de la sortie de cette commande dans le $variable xml d'un script PHP, vous pouvez question:
En espérant que cette réponse aide pour les fichiers DOCX. Mieux vaut tard que jamais.
Pour les fichiers DOC, cette méthode ne fonctionne pas.
Vérifier la commande unzip est présent sur votre système. Pour quel système d'exploitation êtes-vous de codage?
Je l'ai essayé sur windows bien que mon serveur est sous Linux. Cependant, j'ai utilisé ZipArchieve donc mon problème est résolu pour l'instant, concernant ce code, je n'étais pas en mesure d'exécuter sur windows.
Vous pouvez toujours installer un utilitaire de décompression sur Windows: voir gnuwin32.sourceforge.net/packages/unzip.htm. Si vous voulez ot utiliser le code ci-dessus sur une machine Windows, vous aurez également l'enseignement secondaire général pour installer php.
OriginalL'auteur Pierre François
Eric Blanc explique comment faire pour docx en C# à la transformation-open-xml-documents-de-plat-opc-format
Vous pouvez aussi le faire en utilisant docx4j (qui je travaille), le " j " en cours de Java.
OriginalL'auteur JasonPlutext
Dans Word: fichier | enregistrer sous | Word Document XML (*.xml) vous donne le Format Open XML que vous voulez, comme un seul fichier XML
Dans le code à l'aide de l'Interopérabilité: l'utilisation d'objet de Document de la méthode SaveAs, à l'aide de WdSaveFormat.wdFormatXMLDocument que le format d'enregistrement. Vous devez également utiliser le Document.Convertir méthode de mise à jour de la compatibilité de la suite MS Office version installée.
Donc pas nécessairement une démo complète, mais ce devrait vous donner une bonne idée:
Désolé, il a été marqué bureau-interop, donc, je suppose. Aussi, vous ne savez pas si vous serez en mesure d'utiliser l'Interopérabilité dans un scénario de serveur, vérifiez les autres threads à ce sujet. || Il semble que vous voulez que chaque paquet/la partie qui en fait un WordprocessingDocument objet, cependant dans un ensemble unifié/partie.
Merci pour cela. J'ai essayé d'utiliser wdFormatOpenDocumentText pour enregistrer un .docx et a été d'obtenir un COM Exception.
OriginalL'auteur JohnZaj