N-gramme de génération à partir d'une phrase
Comment générer un n-gramme de la chaîne:
String Input="This is my car."
Je veux générer des n-grammes avec cette entrée:
Input Ngram size = 3
Sortie doit être:
This
is
my
car
This is
is my
my car
This is my
is my car
Donner une idée, en Java, comment faire pour le mettre en œuvre ou si une bibliothèque est disponible pour cela.
Je suis en train d'utiliser cette NGramTokenizer mais sa donnant n-gramme de la séquence de caractères et je veux que les n-grammes de séquence de mots.
OriginalL'auteur Preetam Purbia | 2010-09-07
Vous devez vous connecter pour publier un commentaire.
Vous êtes à la recherche pour ShingleFilter.
Mise à jour: Le lien pointe vers la version 3.0.2. Cette classe peut être dans différents paquet dans une version plus récente de Lucene.
OriginalL'auteur Shashikant Kore
Je crois que ce serait faire ce que vous voulez:
De sortie:
"À la demande" de la solution mise en œuvre comme un Itérateur:
OriginalL'auteur aioobe
Ce code retourne un tableau de toutes les Chaînes de la longueur donnée:
E. g.
ngrams("This is my car", -3)
(désolé, pas pu résister)ngrams("This is my car", -3)
fonctionne très bien.ngrams("This is my car", 6)
cependant, les résultats dans unNegativeArraySizeException
.Qu'attendez-vous dans ces cas? Je te suggère de mettre un test au début de la méthode et renvoie un tableau vide. Généralement je vois DONC quelques réponses avec un système sophistiqué de gestion des erreurs.
OriginalL'auteur Landei
Appel:
De sortie:
OriginalL'auteur tozCSS
Voici mes codes pour créer des n-grammes. Dans ce cas, n = 2, 3. n-gramme de mots de la séquence qui plus petite que la valeur de coupure ignorer d'ensemble de résultats. En entrée est une liste de phrases, puis il l'analyser à l'aide d'un outil de OpenNLP
OriginalL'auteur Dung TQ
OriginalL'auteur M Sach
Check this out:
Simple fonction récursive, meilleur temps de course.
OriginalL'auteur Jagesh Maharjan