La lemmatisation java
Je suis à la recherche d'un lemmatisation mise en œuvre pour l'anglais en Java. J'ai trouvé un peu déjà, mais j'ai besoin de quelque chose qui n'a pas besoin de beaucoup de mémoire (1 GO en haut).
Merci. Je n'ai pas besoin d'un analyseur morphologique.
- Vous avez besoin de la vraie lemmatisation (nécessite habituellement une taille décente liste de mots), ou est un analyseur morphologique comme Porter, boule de neige, ou de Paice-Cosse assez bon?
- Connaissez-vous une vraie lemmatisation (liste de mots)? J'en ai besoin si il y a de tout.
- Le meilleur mot de la liste que j'ai trouvé est celui développé par les joueurs du jeu de mot Scrabble, OWL2. Malheureusement, il n'est pas "ouvert". Qui, en conjonction avec quelque chose comme WordNet, pourraient servir de base pour une bonne lemmatizer. Mais je ne sais pas de n'importe qui qui l'a fait.
- Cette question semble être hors-sujet, car il est appartiennent à des logiciels de recommandations.
Vous devez vous connecter pour publier un commentaire.
La Stanford CoreNLP bibliothèque Java contient un lemmatizer qui est un peu gourmand en ressource, mais j'ai l'exécuter sur mon portable avec <512 mo de RAM.
Pour l'utiliser:
De Chris réponse quant à la Standford Lemmatizer est grand! Absolument magnifique. Il a même inclus un pointeur vers le fichier jar, de sorte que je n'avais pas à google pour elle.
Mais l'une de ses lignes de code a une erreur de syntaxe (il a en quelque sorte changé la fin de la fermeture de parenthèses et de point-virgule à la ligne qui commence par "lemmes.ajouter...), et il a oublié d'inclure les importations.
Autant que la NoSuchMethodError erreur, elle est habituellement causée par cette méthode n'étant pas rendues publiques statiques, mais si vous regardez le code lui-même (à http://grepcode.com/file/repo1.maven.org/maven2/com.guokr/stan-cn-nlp/0.0.2/edu/stanford/nlp/util/Generics.java?av=h) qui n'est pas le problème. Je soupçonne que le problème est quelque part dans le build path (je suis en utilisant Eclipse Kepler, c'était donc pas de problème de configuration de l'33 fichiers jar que j'utilise dans mon projet).
Voici ma correction mineure de Chris du code, avec un exemple (mes excuses à Evanescence pour massacrer leur parfaite paroles):
Voici mes résultats (j'ai été très impressionné; il avait pris un "s" comme "est" (parfois), et n'a presque tout le reste parfaitement):
Départ De Stanford Lemmatizer
L'ajout de l'annotation de marquer
L'ajout de l'annotation de ssplit
L'ajout de l'annotation de pos
Lecture POS tagger modèle de edu/stanford/pnl/modèles/pos tagger/anglais-left3words/anglais-left3words-distsim.tagger ... fait [1,7 s].
L'ajout de l'annotateur lemme
[comment faire, pourriez, vous, d'être, de voir, dans, mon, oeil, comme, ouvert, porte, ?, vous, le plomb, le je, le bas, dans, mon, cœur, où, je l', avoir, devenir, donc, engourdie, sans que, un, âme, mon esprit, s', le sommeil, quelque part, le froid, jusqu'à ce que, vous, trouver, elle, il, et, de plomb, de, retour, maison, vous, réveil, I,, intérieur, appeler, mon nom, et, d'enregistrer, de je, de, la, la nuit tombée, vous, avez, de l'offre, mon, sang, et, il faut l'exécuter, avant, je, voudrais, devenir, annuler, vous, enregistrer, j', de, la, rien, j', ont, presque, devenir, vous, la, porte, j', de, vie, maintenant, que, je, savoir, ce qui, je, être, sans, vous, pouvez, avoir, juste, quitter, je, vous, respirez, en, I, et, faire, j', réel, congelés, à l'intérieur, sans, vous, le toucher, sans, vous, de l'amour, ,, chérie, seulement, vous, la, la, vie, entre la, la, mort, I, avoir, être, de vivre, de un, le mensonge, ,,, il, rien, à l'intérieur, vous, la, porte, j', de, vie, .]
Vous pouvez essayer gratuitement le Lemmatizer API ici: http://twinword.com/lemmatizer.php
Faites défiler vers le bas pour trouver le Lemmatizer point de terminaison.
Cela vous permettra d'obtenir des "chiens" à "chien", "capacités" de "capacité".
Si vous passez dans un POST ou GET paramètre appelé "texte" avec une chaîne de caractères comme le "marché des plantes":
Vous obtenez une réponse comme celle-ci:
Il y a un JNI pour hunspell, qui est le vérificateur utilisé dans open office et FireFox.
http://hunspell.sourceforge.net/
Découvrez Lucene Boule De Neige.