Meilleure Façon de traiter un Document Word

- Je recevoir des documents word avec le formatage correspondant aux données qui est en eux. Par exemple, tous les en-têtes ont exactement la même mise en forme (Times New Roman, Police 14 Gras).

Quelle est la meilleure façon de traiter ces documents MS Word (.doc ou .docx) en documents xml? La langue n'est pas un problème (je vais utiliser Lisp/Boost.L'esprit si je dois le faire!).

Pourriez-vous élaborer sur la façon dont les éléments xml sera généré pour les documents word? Si c'est purement à base de texte, je pourrais regarder les convertir en texte brut premier.
Voir bytes.com/topic/python/answers/24103-parsing-ms-word-document
Voir stackoverflow.com/questions/125222/...
Lire aussi cet article très perspicace par Joel: Pourquoi les MS Office formats de fichier si compliqué? (Et quelques solutions de contournement)

OriginalL'auteur Mikhail | 2010-11-24