Comment charger le texte de document MS Word en C# (.NET)?
Comment puis-je charger document MS Word (.doc et .docx) pour mémoire (variable) sans le faire?:
wordApp.Documents.Ouvrir
Je ne veux pas l'ouvrir MS Word, je veux juste que le texte à l'intérieur.
Vous m'avez donné la réponse pour DOCX, mais ce que sur la DOC? Je veux gratuit et de haute performance de la solution de ne pas ouvrir de 12.000 cas de Mot pour le processus de tous. 🙁 Aspose est produit commercial, et à 900$ est une beaucoup trop pour ce que je fais.
Vous devez vous connecter pour publier un commentaire.
Vous pouvez utiliser wordconv.exe qui fait partie du Pack de Compatibilité Office pour convertir doc en docx.
http://www.microsoft.com/downloads/details.aspx?familyid=941b3470-3ae9-4aee-8f43-c6bb74cd1466&displaylang=en
Il suffit d'appeler la commande comme suit:
"C:\Program Files\Microsoft Office\Office12\wordconv.exe" -oice -nme InputFile OutputFile
Je ne suis pas sûr si vous avez besoin de word installé pour fonctionner, mais il ne fonctionne pas. Je l'utilise localement comme un windows shell de commande pour convertir les anciens fichiers office 2007 format que je veux.
Pour docx formaté des Documents Word, j'ai trouvé cet article intéressant sur La CodeProject
À l'aide de DocxToText pour Extraire du Texte à partir de Fichiers DOCX
Dans l'article, l'auteur discute enlevant juste les mots eux-mêmes.
Pour votre doc (non docx) les Documents Word d'autres que l'aide de l'Api Office et (dans le fond), la ponte d'une instance de Word vous pouvez essayer de les bombardements à l'un des nombreux différents Doc2Docx convertisseurs sur le marché, puis en appliquant la procédure ci-dessus pour les deux.
Si vous traitez avec l'docx vous pouvez faire cela avec faire toute interopérabilité avec Word
.fichier docx en fait un ZIP contient un fichier XML , vous pouvez lire le fichier XML
Veuillez consulter les liens ci-dessous
http://conceptdev.blogspot.com/2007/03/open-docx-using-c-to-extract-text-for.html
Office (2007) Formats de Fichiers Open XML
J'ai récemment fait quelques recherches sur ce sujet. Il s'avère que, pour être en mesure de manipuler les fichiers word par programmation sans l'ouverture de la parole elle-même vous avez besoin de quelques très coûteux outils.
Il y a un article à projet de code sur la manipulation de Mot, vous trouverez peut-être utile. L'auteur de construire un C# wrapper COM pour traiter les appels à la Parole. On dirait qu'il fait, ouvre l'application word si.
Ce post plus à la neowin forums l'air prometteur aussi. Il comprend un bon nombre PInvoked les appels à des fins d'extraction de texte.
Peut-être que si tu pouvais trouver un moyen de garder la fenêtre cachée, il serait acceptable.
Aspose a une composante de lire, modifier et écrire des documents Word.
Voici le lien du produit : Aspose.Mots pour .NET et Java
Avec docxtemplater, vous pouvez facilement obtenir le texte intégral d'un mot (fonctionne avec docx seulement).
Voici le code (Node.JS)
DocxTemplater=require('docxtemplater');
doc=new DocxTemplater().loadFromFile("input.docx");
result=doc.getFullText();
C'est juste trois lignes de code et ne dépend d'aucune instance de word (toutes les plaine JS)
Je ne veux pas être un antagoniste, mais pourquoi?
J'ai extrait les données à partir de Documents Word sur des serveurs Linux à l'aide de Word2X ou AbiWord et selon le nombre et la variété des docments il y aura toujours des erreurs lors de l'extraction. C'est pire que le plus de balles, les sauts de page, sections des documents et d'autres "spécial" fonctionnalités y sont.
Je comprends qu'il ya des options pour automatiser OpenOffice pour le traitement des documents, mais mon conseil est, si vous pouvez, il suffit d'utiliser Word pour traiter des documents Word.