Les mots vides et stemmer en java

Je songe à un arrêt de mots dans mon similitude programme, puis un analyseur morphologique (va pour les porteurs 1 ou 2 dépend de ce que la plus simple à mettre en œuvre)

Je me demandais que depuis que j'ai lu mon texte à partir de fichiers comme des lignes entières et de les enregistrer comme une longue chaîne de caractères, donc si j'ai deux chaînes de ex.

String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";

Maintenant que j'ai eu ces chaînes

Découlant:
Puis-je utiliser l'analyseur morphologique algoritmen directement sur elle, l'enregistrer comme une Chaîne, puis continuer à travailler sur la similitude comme je l'ai fait avant la mise en œuvre de l'analyseur morphologique dans le programme, comme la course.la tige(); est le genre de chose?

Arrêter mot:
Comment cela fonctionne? O. o
Dois-je simplement utiliser; un.replaceall("je", ""); ou est-il une manière spécifique à utiliser pour ce processus? Je veux continuer à travailler avec la corde et obtenir une chaîne de caractères avant d'utiliser la similitude des algorithmes sur elle pour obtenir la similitude. Wiki ne dit pas beaucoup.

Espère que vous pourrez m'aider! Merci.

Edit: C'est pour une école liés au projet pour lequel je suis en train d'écrire un papier sur la similarité entre les différents algorithmes, donc je ne pense pas que je suis autorisé à utiliser lucene ou d'autres bibliothèques qui fait le travail pour moi. De Plus, je voudrais essayer de comprendre comment cela fonctionne avant de me lancer en utilisant les bibliothèques comme Lucene et co. J'espère que c'est pas trop la peine ^^

OriginalL'auteur N00programmer | 2011-05-25