Convertir doc en txt via la ligne de commande
Nous sommes à la recherche d'un programme qui permet de convertir un doc ou docx document dans un fichier txt. Nous travaillons avec linux et nous voulons lancer un site internet qui convertit l'utilisateur de télécharger des fichiers doc. Nous ne voulons pas utiliser open office/libre office, parce que nous avons une mauvaise expérience avec cela. Pandoc ne peut pas gérer les fichiers doc :/
Que quelqu'un a une idée?
Vous devez vous connecter pour publier un commentaire.
Vous devrez utiliser deux différents outils de ligne de commande, en fonction de si vous travaillez avec .doc ou .format docx.
Pour .doc utilisez catdoc:
Pour .docx utilisation docx2txt:
Ce dernier va produire un fichier appelé foo.txt dans le même répertoire que l'original.
Je ne suis pas sûr de la distribution Linux que vous utilisez, mais les deux catdoc et docx2txt sont disponibles à partir des dépôts Ubuntu, par exemple:
Ou avec Homebrew sur Mac:
ici est un perl projet qui prétend le faire. J'ai fait beaucoup de cette à la main également, à l'aide de XSLT sur le document.xml. le fichier Docx en lui-même est juste un fichier zip, vous pouvez le décompresser et d'inspecter les éléments. Je dirai que ce n'est pas difficile à faire pour des fichiers spécifiques, mais il est très difficile de le faire dans le cas général, en raison de l'absence de documentation pour la façon dont Word stocke en interne des choses, et de l'écart de représentation interne.