Comment effectuer la Lemmatisation dans R?

Cette question est un double possible de Lemmatizer dans R ou python (suis, es, est ->?), mais je suis d'ajouter ce nouveau depuis le précédent a été fermé en disant qu'il était trop large et la seule réponse qu'il a n'est pas efficace (comme il accède à un site web externe pour ce, qui est trop lent comme je l'ai corpus de très grande taille pour trouver les lemmes). Ainsi, une partie de cette question sera semblable à celui ci-dessus mentionné la question.

Selon Wikipedia, la lemmatisation est défini comme:

Lemmatisation (ou lemmatisation) en linguistique, est le processus de regrouper les différentes formes fléchies d'un mot de sorte qu'ils peuvent être analysés comme un seul élément.

Une simple recherche sur Google pour la lemmatisation dans R seulement point pour le package wordnet de R. Lorsque j'ai essayé ce paquet attendent à ce qu'un caractère de vecteur de c("run", "ran", "running") entrée de la lemmatisation fonction entraînerait c("run", "run", "run"), j'ai vu que ce paquet fournit des fonctionnalités similaires à grepl fonction par le biais de différents noms de filtre et d'un dictionnaire.

Un exemple de code à partir de wordnet paquet, ce qui donne le maximum de 5 mots commençant par "voiture", comme le nom du filtre explique lui-même:

filter <- getTermFilter("StartsWithFilter", "car", TRUE)
terms <- getIndexTerms("NOUN", 5, filter)
sapply(terms, getLemma)

Ci-dessus est PAS la lemmatisation que je suis à la recherche pour. Ce que je cherche, à l'aide de R je veux trouver des vraies racines de ces mots: (Pour, par exemple, à partir de c("run", "ran", "running") à c("run", "run", "run")).

désolé, mais je pense que c'est "à la recherche d'un package ou d'un outil" -- pas en essayant de résoudre un même problème de programmation. Peut-être il y a computational linguistics/text-mining forums, vous pourriez demander?
Je pense que cette question est légèrement différente de celle de la typique package/l'outil de recherche des questions qui seront à proximité. Elle demande comment effectuer la lemmatisation dans R, qui est une question de programmation. @StrikeR : je vous suggère de modifier la dernière ligne "il y a ..." afin d'éviter cette question se fermé.
merci pour la suggestion. Fait des changements en conséquence.
Ce n'est pas une question de programmation. La partie programmation de ce a une réponse simple - trouver/créer un dictionnaire et d'effectuer une recherche.
Je suis en désaccord avec votre commentaire que ce n'est pas une question de programmation. Dans votre commentaire, vous êtes en supposant qu'il existe une seule forme de lemmatisation à l'aide du dictionnaire, mais il existe aussi d'autres formes qui sont basés sur des règles. Alors, je pense que la partie programmation n'est pas aussi simple que vous le pensez. Je suis très bien avec toute réponse qui peut effectuer la lemmatisation, plus précisément dans R, un dictionnaire ou à base de règles. Mais la seule contrainte est qu'il ne doit pas être lent à traiter un grand corpus de textes.

OriginalL'auteur StrikeR | 2015-01-29