Comment extraire du texte à partir d'un fichier docx en utilisant python-docx

Je suis en train d'utiliser python-docx module (pip install python-docx)
mais il semble être très déroutant comme dans dépôt github échantillon de test, ils sont à l'aide de opendocx fonction, mais dans readthedocs ils sont à l'aide de Document classe. Même s'ils sont seulement montrer comment ajouter du texte à un fichier docx pas de lecture existante?

1er (opendocx) ne fonctionne pas, peut être obsolète. Pour le deuxième cas, j'ai essayé d'utiliser:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs

Il est retourné une liste de <docx.text.Paragraph object at 0x... >

Puis j'ai fait:

for p in document.paragraphs:
    print p.text

Il a renvoyé tout le texte, mais il y avait quelques chose qui manque. Toutes les Url (CTRL+CLIC pour aller à l'URL) n'étaient pas présents dans le texte sur la console.

Quel est le problème? Pourquoi les Url sont manquantes?

Comment pourrais-je avoir le texte complet sans une itération sur la boucle (quelque chose comme open().read())

  • Remarque l'ancien dépôt GitHub github.com/mikemaccana/python-docx a 'Ce Projet A Déménagé!' dans la rubrique 1.
  • Aussi, toutes les listes numérotées sont pas exportées sous forme de texte...
InformationsquelleAutor Nancy | 2014-08-10