Comment Extraire docx (Word 2007 ci-dessus) à l'aide d'Apache POI
Hai, je suis en utilisant Apache POI 3.6
J'ai déjà créé un certain code..
XWPFDocument doc = new XWPFDocument(new FileInputStream(file));
wordxExtractor = new XWPFWordExtractor(doc);
text = wordxExtractor.getText();
System.out.println("adding docx " + file);
d.add(new Field("content", text, Field.Store.NO, Field.Index.ANALYZED));
malheureusement, il a généré l'erreur..
Exception in thread "main" java.lang.NoClassDefFoundError: org/dom4j/DocumentException
at org.apache.poi.openxml4j.opc.OPCPackage.init(OPCPackage.java:149)
at org.apache.poi.openxml4j.opc.OPCPackage.<init>(OPCPackage.java:136)
at org.apache.poi.openxml4j.opc.Package.<init>(Package.java:54)
at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:98)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:199)
at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:178)
at org.apache.poi.util.PackageHelper.open(PackageHelper.java:53)
at org.apache.poi.xwpf.usermodel.XWPFDocument.<init>(XWPFDocument.java:98)
at org.apache.lucene.demo.Indexer.indexDocs(Indexer.java:153)
at org.apache.lucene.demo.Indexer.main(Indexer.java:88)
Il semble qu'il a utilisé Constructeur
XWPFWordExtractor(OPCPackage conteneur)
mais pas celui-ci ->
XWPFWordExtractor(XWPFDocument document)
Toute demande pourquoi??
Ou une idée de comment je peux extraire le .docx, puis de le convertir en une Chaîne de caractères?
Vous devez vous connecter pour publier un commentaire.
Vous devez Ajouter dom4j Bibliothèque à votre claspath ou de votre projet de bibliothèques
Il semble que vous n'avez pas toutes les dépendances sur votre classpath.
Si vous regardez http://poi.apache.org/overview.html vous verrez que dom4j est une bibliothèque requise lorsque vous travaillez avec des fichiers OOXML. De l'exception que vous avez, il semble que vous ne l'avez pas... Si vous regardez dans le PVE binaire télécharger, vous devriez le trouver dans l'ooxml-libs sous-répertoire.
Vous pouvez essayer de docx4j à la place; voir http://dev.plutext.org/svn/docx4j/trunk/docx4j/src/main/java/org/docx4j/TextUtils.java