Comment puis-je utiliser Apache POI pour lire un .Fichier DOC en Java pour séparer les images de texte?
J'ai besoin de lire un Mot .fichier doc de Java qui contient du texte et des images. J'ai besoin de reconnaître les images & texte et les séparer en 2 fichiers.
J'ai récemment entendu parler "Apache POI." Comment je peux l'utiliser Apache POI à lire le Mot .les fichiers doc?
Vous devez vous connecter pour publier un commentaire.
Les exemples et les exemples de code sur le site sont très bonnes. Je vous recommande de commencer par là.
http://poi.apache.org/hwpf/quick-guide.html
Ici pour un exemple de l'extraction d'une image. Ici pour la dernière révision de cette écriture.
Et bien sûr, la La documentation javadoc
Note que, selon le POI site,
Il n'est pas gratuit (ou même pas cher!!!) mais Aspose.Mots devrait être capable de faire cela. Leur évaluation de téléchargement vous permettra de jouer avec les petits fichiers.
Ne la destination des fichiers doivent aussi être des Docs? Vous pouvez ouvrir des documents Office et de les enregistrer au format HTML. Ensuite, la séparation devient trivial. RTF est également une option viable, mais je ne peux pas recommander un bon RTF analyseur sur le dessus de ma tête.
Modifier à-dire: je viens de me rappeler une autre solution possible: Jacob, mais vous aurez besoin d'une instance de microsoft Office en cours d'exécution sur la même machine. C'est court pour Java COM Pont et vous permet de faire des appels à la COM bibliothèques dans le Bureau de manipuler les documents. Je suis sûr que ce n'est pas aussi effrayant que cela puisse paraître!