Les mots vides et stemmer en java

Je songe à un arrêt de mots dans mon similitude programme, puis un analyseur morphologique (va pour les porteurs 1 ou 2 dépend de ce que la plus simple à mettre en œuvre)

Je me demandais que depuis que j'ai lu mon texte à partir de fichiers comme des lignes entières et de les enregistrer comme une longue chaîne de caractères, donc si j'ai deux chaînes de ex.

String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";

Maintenant que j'ai eu ces chaînes

Découlant:
Puis-je utiliser l'analyseur morphologique algoritmen directement sur elle, l'enregistrer comme une Chaîne, puis continuer à travailler sur la similitude comme je l'ai fait avant la mise en œuvre de l'analyseur morphologique dans le programme, comme la course.la tige(); est le genre de chose?

Arrêter mot:
Comment cela fonctionne? O. o
Dois-je simplement utiliser; un.replaceall("je", ""); ou est-il une manière spécifique à utiliser pour ce processus? Je veux continuer à travailler avec la corde et obtenir une chaîne de caractères avant d'utiliser la similitude des algorithmes sur elle pour obtenir la similitude. Wiki ne dit pas beaucoup.

Espère que vous pourrez m'aider! Merci.

Edit: C'est pour une école liés au projet pour lequel je suis en train d'écrire un papier sur la similarité entre les différents algorithmes, donc je ne pense pas que je suis autorisé à utiliser lucene ou d'autres bibliothèques qui fait le travail pour moi. De Plus, je voudrais essayer de comprendre comment cela fonctionne avant de me lancer en utilisant les bibliothèques comme Lucene et co. J'espère que c'est pas trop la peine ^^

OriginalL'auteur N00programmer | 2011-05-25

Si vous n'êtes pas la mise en œuvre de ce pour des raisons académiques, vous devriez envisager d'utiliser la Lucene de la bibliothèque. Dans les deux cas, il pourrait être bon pour référence. Il a des classes pour la segmentation, arrêter mot de filtrage, la troncature, et de la similitude. Voici un petit exemple d'utilisation de Lucene 3.0 pour supprimer les mots vides et de la tige d'une chaîne d'entrée:

public static String removeStopWordsAndStem(String input) throws IOException {
    Set<String> stopWords = new HashSet<String>();
    stopWords.add("a");
    stopWords.add("I");
    stopWords.add("the");

    TokenStream tokenStream = new StandardTokenizer(
            Version.LUCENE_30, new StringReader(input));
    tokenStream = new StopFilter(true, tokenStream, stopWords);
    tokenStream = new PorterStemFilter(tokenStream);

    StringBuilder sb = new StringBuilder();
    TermAttribute termAttr = tokenStream.getAttribute(TermAttribute.class);
    while (tokenStream.incrementToken()) {
        if (sb.length() > 0) {
            sb.append(" ");
        }
        sb.append(termAttr.term());
    }
    return sb.toString();
}

Qui, si utilisé sur vos chaînes comme ceci:

public static void main(String[] args) throws IOException {
    String one = "I decided buy something from the shop.";
    String two = "Nevertheless I decidedly bought something from a shop.";
    System.out.println(removeStopWordsAndStem(one));
    System.out.println(removeStopWordsAndStem(two));
}

Les rendements de cette sortie:

decid bui someth from shop
Nevertheless decidedli bought someth from shop

ahh je pense que lucene est un nono car c'est une école liée projet.
Pourquoi ne devriez-vous pas envisager de Lucene pour des fins académiques?

OriginalL'auteur WhiteFang34

0

Oui, vous pouvez envelopper un analyseur morphologique de sorte que vous pouvez écrire quelque chose comme
```
String stemmedString = stemmer.stemAndRemoveStopwords(inputString, stopWordList);
```
En interne, votre stemAndRemoveStopwords serait
- lieu tous les mots vides dans une Carte de référence rapide
- initialiser un vide StringBuilder pour holde la chaîne de sortie
- itérer sur tous les mots dans la chaîne d'entrée, et pour chaque mot
  - recherche dans le stopWordList; si trouvé, toujours au sommet de la boucle de la
  - sinon, la tige à l'aide de votre préféré stemmer, et l'ajouter à la chaîne de sortie
- retour de la chaîne de sortie
Attendez donc, ce que vous dites est qu'il y a déjà un mot vide de la fonction dans les porteurs de l'analyseur morphologique? O. o Désolé, je pense que je ne suis pas à l'obtenir. Pourriez-vous expliquer un peu plus. Je pensais que si Porter stemmer déjà eu une fonction comme ça ou pas. Avoir il serait plus facile de l'utiliser 😉
un analyseur morphologique est un algorithme de couper les mots à leurs tiges. Il n'a aucune notion de " stop-words; mais les enlever est vraiment facile avec une simple table de hachage: mettre tous vos mots vides dans la table de hachage, et avant de la tige d'un mot d'entrée, si elle est dans la table de hachage, alors vous pouvez vous défausser d'enrayer.
Oui, semble que je suis en train de faire une plus grosse affaire de celui-ci que c'est. Merci de répondre.

OriginalL'auteur tucuxi
0

Vous n'avez pas à traiter avec l'ensemble du texte. Seulement split, appliquer votre mot vide de filtre et provenant de l'algorithme, puis construire la chaîne de nouveau à l'aide d'un StringBuilder:
```
StrinBuilder builder = new StringBuilder(text.length());
String[] words = text.split("\\s+");
for (String word : words) {
    if (stopwordFilter.check(word)) { //Apply stopword filter.
        word = stemmer.stem(word); //Apply stemming algorithm.
        builder.append(word);
    }
}
text = builder.toString();
```
Aygün : Ahh mais le problème, c'est que je suis à court de levenshtein comme l'un des algorithmes et il est préférable de travailler avec le texte comme un ensemble de la chaîne sur elle et non pas comme des jetons. C'est la raison pourquoi je veux l'exécuter sur l'ensemble de la chaîne et puis la fin avec une chaîne, je peux la jeter dans la similitude de la machine aka ont encore une chaîne à comparer au lieu de le réécrire pour comparer les jetons dans l'algorithme de levenshtein.
Oh, ok. Alors pourquoi ne pas rejoindre les jetons à l'aide d'un StringBuilder? Il est toujours plus facile que de traiter avec l'ensemble du texte.
Aygün : hmmm...tu veux dire la première coupe à jeton, de mots vides, de la tige et ensuite construire la chaîne de nouveau avant l'exécution de levenshtein sur elle? 😮
Exactement. Pourquoi cette peur?
Aygün : lol, non, il ne m'effraie pas. Je ne suis pas si vieux pour la programmation je ne sais donc pas que beaucoup à ce sujet. Que la raison pour laquelle je demande, c'était pour être sûr que je ne suis pas de malentendu quoi que ce soit. 😉 Ah, une petite question: Est-il une grande différence dans Stringbuilder et Stringbuffer? J'ai utilisé Stringbuffer et il fait le travail, mais à la fois vous et WhiteFang utiliser les autres alors je me demandais si c'est mal de me servir de Stringbuffer parce que je vais être en utilisant de grandes chaînes plus tard aussi.

OriginalL'auteur Eser Aygün

Vous devez vous connecter pour publier un commentaire.