Comment extraire du texte à partir d'un fichier docx en utilisant python-docx

Je suis en train d'utiliser python-docx module (pip install python-docx)
mais il semble être très déroutant comme dans dépôt github échantillon de test, ils sont à l'aide de opendocx fonction, mais dans readthedocs ils sont à l'aide de Document classe. Même s'ils sont seulement montrer comment ajouter du texte à un fichier docx pas de lecture existante?

1er (opendocx) ne fonctionne pas, peut être obsolète. Pour le deuxième cas, j'ai essayé d'utiliser:

from docx import Document

document = Document('test_doc.docx')

print document.paragraphs

Il est retourné une liste de <docx.text.Paragraph object at 0x... >

Puis j'ai fait:

for p in document.paragraphs:
    print p.text

Il a renvoyé tout le texte, mais il y avait quelques chose qui manque. Toutes les Url (CTRL+CLIC pour aller à l'URL) n'étaient pas présents dans le texte sur la console.

Quel est le problème? Pourquoi les Url sont manquantes?

Comment pourrais-je avoir le texte complet sans une itération sur la boucle (quelque chose comme open().read())

Remarque l'ancien dépôt GitHub github.com/mikemaccana/python-docx a 'Ce Projet A Déménagé!' dans la rubrique 1.
Aussi, toutes les listes numérotées sont pas exportées sous forme de texte...

InformationsquelleAutor Nancy | 2014-08-10

38

vous pouvez essayer ce
```
import docx

def getText(filename):
    doc = docx.Document(filename)
    fullText = []
    for para in doc.paragraphs:
        fullText.append(para.text)
    return '\n'.join(fullText)
```
- C'est un bon début, il ne reflète pas le texte dans les tableaux, en-têtes, pieds de page et des notes.
- Envisager d'utiliser simplifiez-docx qui est basée sur python-docx et réduit considérablement la complexité du document XML, tout en conservant une grande partie de la structure (les paragraphes, les tableaux, en-têtes, pieds de page, etc.)
InformationsquelleAutor Chinmoy Panda
11

Vous pouvez utiliser python-docx2txt qui est adapté à partir de python-docx, mais peut aussi extraire du texte à partir des liens, des en-têtes et pieds de page. Il peut également extraire des images.
- c'est un bon morceau de code, mais ce n'est pas à l'exportation des listes numérotées.
- merci, voici le suivi de la question de ce bug
InformationsquelleAutor Ankush Shah
9

Sans Installer python-docx

docx est en fait un fichier zip avec plusieurs dossiers et fichiers qu'il contient. Dans le lien ci-dessous vous pouvez trouver une fonction simple pour extraire le texte à partir de docx fichier, sans avoir besoin d'installer python-docx et lxml parfois problème:

http://etienned.github.io/posts/extract-text-from-word-docx-simply/

InformationsquelleAutor imanzabet
5

Il y a deux "générations" de python-docx. La première génération est terminée avec la 0.2.versions x et la "nouvelle" génération a commencé à v0.3.0. La nouvelle génération est un sol en place, orienté objet de réécriture de l'ancienne version. Il a un distinctes référentiel trouve ici.

La opendocx() la fonction est une partie de l'héritage de l'API. La documentation est pour la nouvelle version. L'ancienne version n'a pas de documentation pour parler de.

Ni la lecture ni l'écriture, de liens hypertextes, sont pris en charge dans la version actuelle. Cette capacité est sur la feuille de route, et le projet est en développement actif. Il s'avère être tout à fait un large API parce que la Parole a autant de fonctionnalités. Nous allons donc l'obtenir, mais probablement pas dans les prochains mois, à moins que quelqu'un décide de se concentrer sur cet aspect et y contribuer.
- si cela avait été corrigé dans la dernière version - difficile de dire à partir de github
InformationsquelleAutor scanny

vous pouvez l'essayer aussi

from docx import Document

document = Document('demo.docx')
for para in document.paragraphs:
    print(para.text)

InformationsquelleAutor user3732708

1

À l'aide de python-docx, comme @Chinmoy Panda 's réponse montre:
```
for para in doc.paragraphs:
    fullText.append(para.text)
```
Cependant, para.text perdu le texte dans w:smarttag (Correspondant github question est ici: https://github.com/python-openxml/python-docx/issues/328), vous devez utiliser la fonction suivante à la place:
```
def para2text(p):
    rs = p._element.xpath('.//w:t')
    return u" ".join([r.text for r in rs])
```
InformationsquelleAutor Xing Shi
0

J'ai eu un problème similaire, j'ai donc trouvé une solution de contournement (supprimer les balises de lien hypertexte grâce à des expressions régulières, de sorte que seule une balise de paragraphe en reste). J'ai posté cette solution sur https://github.com/python-openxml/python-docx/issues/85
BP

InformationsquelleAutor user4264327

Vous devez vous connecter pour publier un commentaire.