Comment comparer presque similaire Chaînes de caractères en Java? (Chaîne de mesure de distance)

Je voudrais comparer deux chaînes de caractères et obtenir une note de combien ces ressemblent.
Par exemple "La phrase est presque similaire" et "La phrase est semblable".

Je ne suis pas familier avec les méthodes existantes en Java, mais pour le PHP je sais que le levenshtein fonction.

Sont là les meilleures méthodes en Java?

Qu'entendez-vous par "similaires"? Prononcé similaire? Est visuellement similaire?
à en juger par l'exemple, je dirais que ni visuelle, ni la prononciation de similarité sont le voulait mesurer ici.

InformationsquelleAutor hsmit | 2010-01-18

20

La Levensthein distance est une mesure de la similarité des chaînes sont. Ou, plus précisément, de la façon dont beaucoup de modifications doivent être apportées qu'ils sont les mêmes.

La algorithme est disponible en pseudo-code sur Wikipédia. De conversion que pour Java ne devrait pas être un problème, mais il n'est pas intégré dans la bibliothèque de classes de base.

Wikipédia a quelques algorithmes qui mesurent la similarité de chaînes.

InformationsquelleAutor Joey
50

La suite de bibliothèques Java offrent de multiples comparer des algorithmes (Levenshtein,Jaro-Winkler,...):
1. Apache Commons Lang 3: https://commons.apache.org/proper/commons-lang/
2. Simmetrics: http://sourceforge.net/projects/simmetrics/
Les deux bibliothèques ont une documentation de java (Apache Commons Lang Javadoc,Simmetrics Javadoc).
```
//Usage of Apache Commons Lang 3
import org.apache.commons.lang3.StringUtils;   
public double compareStrings(String stringA, String stringB) {
    return StringUtils.getJaroWinklerDistance(stringA, stringB);
}

 //Usage of Simmetrics
import uk.ac.shef.wit.simmetrics.similaritymetrics.JaroWinkler    
public double compareStrings(String stringA, String stringB) {
    JaroWinkler algorithm = new JaroWinkler();
    return algorithm.getSimilarity(stringA, stringB);
}
```
- Merci beaucoup pour me mettre au courant de cette bibliothèque. Ses fonctions et la facilité d'utilisation ont été très utiles!
- super lib, facile à utiliser et de bons résultats
- Il est disponible en Apache commons-lang maintenant: commons.apache.org/proper/commons-lang/apidocs/org/apache/...
- Une bibliothèque basée sur ce qui est maintenant sur GitHub github.com/Simmetrics/simmetrics. Il est également disponible sur Maven Central
InformationsquelleAutor FiveO
14

ouais c'est une bonne mesure, vous pouvez utiliser StringUtil.getLevenshteinDistance() de apache commons
- Il n'est pas disponible dans Java Mobile Edition, est-il? Mais merci pour votre réponse!
- vous pouvez l'utiliser avec MOI, il suffit d'ajouter le jar.
- hmmm, non, je ne suis pas vraiment sûr que c'est complètement utilisable avec J2ME, il a été compilé avec une J2SE
- ne pas utiliser quoi que ce soit MOI n'a pas de soutien. vous pouvez le faire et de le copier dans le bocal
InformationsquelleAutor jspcal

Vous pouvez trouver des implémentations de Levenshtein et d'autres chaîne de similarité/distance de mesures sur
https://github.com/tdebatty/java-string-similarity

Si votre projet utilise maven, l'installation est aussi simple que

<dependency>
  <groupId>info.debatty</groupId>
  <artifactId>java-string-similarity</artifactId>
  <version>RELEASE</version>
</dependency>

Ensuite, pour utiliser Levenshtein, par exemple

import info.debatty.java.stringsimilarity.*;

public class MyApp {

  public static void main (String[] args) {
    Levenshtein l = new Levenshtein();

    System.out.println(l.distance("My string", "My $tring"));
    System.out.println(l.distance("My string", "My $tring"));
    System.out.println(l.distance("My string", "My $tring"));
  }
}

InformationsquelleAutor Thibault Debatty

1

Plug sans vergogne, mais j'ai écrit une bibliothèque aussi:

https://github.com/vickumar1981/stringdistance

Il a toutes ces fonctions, plus un peu pour la similitude phonétique (si un seul mot "sonne comme" un autre mot - renvoie vrai ou faux contrairement aux autres floue similitudes qui sont des nombres compris entre 0 et 1).

Comprend également le séquençage de l'adn des algorithmes de Smith-Waterman et Needleman-Wunsch, qui sont généralisées versions de Levenshtein.

J'ai l'intention, dans un avenir proche, pour faire de ce travail avec n'importe quel ensemble et pas seulement des chaînes de caractères (un tableau de caractères).

InformationsquelleAutor Vaibhav Kumar

Vous devez vous connecter pour publier un commentaire.