lire un fichier MSWord dans la R

Est-il possible de lire un MSWord 2010 fichier dans R? J'ai Windows 7 et un PC Dell.

Je suis l'aide de la ligne:

my.data <- readLines('c:/users/mark w miller/simple R programs/test_for_r.docx')

essayer de lire un MSWord fichier contenant le texte suivant:

A   20  1000    AA
B   30  1001    BB
C   10  1500    CC

Je reçois un message d'avertissement qui dit:

Message d'avertissement:
Dans readLines("c:/users/mark w miller/simple R programs/test_for_r.docx") :
incomplète dernière ligne disponibles sur la "c:/users/mark w miller/simple R programs/test_for_r.docx'

et my.data semble être du charabia:

# [1] "PK
# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"
3
# [1] "PK\003\004\024" "¤l"             "ÈFÃË‹Átí"
44" "¤l" "ÈFÃË‹Átí"

Je sais qu'avec ce simple exemple, j'ai pu facilement convertir le fichier MSWord dans un format différent. Cependant, mes fichiers de données réelles consistent en des tableaux complexes qui ont été tapés il y a des décennies et puis numérisés en documents pdf plus tard. L'âge de l'original du document papier et peut-être des imperfections dans le document original, de frappe et/ou le processus de numérisation a entraîné dans certains des lettres et des chiffres pas très claire. La mesure de convertir les fichiers pdf en fichiers MSWord semble être le plus réussi à traduire correctement les tables. La conversion de la MSWord des fichiers Excel ou rtf, etc, n'a pas été très réussie. Même après la conversion MSWord les fichiers résultants sont très complexes et comportent de nombreuses erreurs. J'ai pensé que si je pouvais lire les fichiers MSWord en R que peut-être la façon la plus efficace de les modifier et de les corriger.

Je suis conscient de la "package tm' qui, je pense, peut lire les fichiers MSWord dans R, mais je suis un peu inquiète au sujet de l'utiliser car il semble nécessiter l'installation de logiciels tiers.

Merci pour toutes les suggestions.

Autant que je sache, la lecture des fichiers MS Word va nécessiter l'installation d'un paquet de CRAN. Pourquoi êtes-vous préoccupé par l'installation d'un logiciel tiers?
Le tm paquet fournit la fonction readDOC(). Cela nécessite l'installation d'un externe (non-R) outil nommé antiword. Cependant, je crois que le paquet ou l'outil ne lit que les fichiers Word version 2003 et ne le sera pas .les fichiers docx. readLines() n'est pas la bonne solution; il exige de texte au format ASCII en entrée.
Si vous enregistrez le document word en tant que html et ensuite utiliser un site web grattage forfait (par exemple XML ou RCurl) pour extraire le texte?
Merci pour les suggestions. Je n'ai jamais fait de web scraping, mais il est sur ma liste de choses à apprendre. C'est peut-être le facteur motivant pour moi de l'apprendre.
Avez-vous essayé de ROC de l'original au format pdf avec Google Docs? Il y a d'autres gratuit en ligne OCR services qui ne nécessitent pas d'installation de logiciel.

OriginalL'auteur Mark Miller | 2012-06-20