Floue Comparaison De Chaînes De Caractères

Ce que je cherche à compléter est un programme qui lit dans un fichier et de comparer chaque phrase selon la phrase d'origine. La phrase qui est un match parfait à l'origine recevrez un score de 1 et une phrase qui est tout l'opposé recevrez un 0. Tous les autres floue phrases recevra une note entre 1 et 0.

Je ne suis pas certain de l'opération pour laquelle l'utiliser pour me permettre de terminer dans Python 3.

J'ai inclus dans l'échantillon de texte dans laquelle le Texte 1 est l'original et l'autre précédent chaînes sont les comparaisons.

Texte: Exemple De

Texte 1: Il était une nuit sombre et orageuse. J'étais tout seul, assis sur une chaise rouge. Je n'étais pas complètement seul que j'ai eu trois chats.

Texte 20: C'était un trouble et nuit d'orage. J'étais tout seul, assis sur un crimson président. Je n'étais pas complètement seul que j'ai eu trois félins
//Devrait score haut point, mais pas 1

Texte 21: C'était un trouble et agitée la nuit. J'étais tout seul, assis sur un crimson cathedra. Je n'étais pas complètement seul que j'ai eu trois félins
//Devrait score inférieur à celui du texte le 20

Texte 22: j'étais tout seul, assis sur un crimson cathedra. Je n'étais pas complètement seul que j'ai eu trois félins. C'était un trouble et agitée la nuit.
//Devrait score inférieur à celui du texte 21 mais PAS 0

Texte 24: C'était une nuit sombre et orageuse. Je n'étais pas seule. Je n'étais pas assis sur une chaise rouge. J'ai eu trois chats.
//Devrait score de 0!

Semble que vous voulez calculer le Levenshtein (ou distance d'édition métrique). Maintenant, si vous le maximum de distance, vous avez juste à l'échelle des scores pour la gamme [0,1].
Merci pour votre aide @Felix Kling la difflib peut-être la voie à suivre.
Trop mauvais, il a été supprimé....
Pourquoi devrait-chaîne 1 et 24 de zéro? Ils ont exactement la même première phrase. La 2e phrase 1 est presque la même que la phrase 2+3 dans les 24 (seule différence, c'est "non", et une "je n'étais pas").. Numériquement, ils sont TRÈS similaires. Sémantiquement ils sont différents, mais si vous demandez à un ordinateur à comprendre la signification d'une phrase, alors vous demandez peut-être trop.

InformationsquelleAutor jacksonstephenc | 2012-04-30

93

Il y a un paquet appelé fuzzywuzzy. Installer via pip:
```
pip install fuzzywuzzy
```
Simple d'utilisation:
```
>>> from fuzzywuzzy import fuzz
>>> fuzz.ratio("this is a test", "this is a test!")
    96
```
Le paquet est construit sur le haut de difflib. Pourquoi ne pas l'utiliser, demandez-vous? En plus d'être un peu plus simple, il a un certain nombre de différentes méthodes d'appariement (comme jeton afin d'insensibilité partielle correspondance de chaîne) qui le rendent plus puissant dans la pratique. Le process.extract fonctions sont particulièrement utiles: trouver la meilleure correspondance entre les chaînes et les ratios à partir d'un ensemble. De leur readme:

Partielle Ratio
```
>>> fuzz.partial_ratio("this is a test", "this is a test!")
    100
```
Jeton De Tri Ratio
```
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    90
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
    100
```
Jeton Définissez Le Taux
```
>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
    84
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
    100
```
Processus
```
>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
>>> process.extract("new york jets", choices, limit=2)
    [('New York Jets', 100), ('New York Giants', 78)]
>>> process.extractOne("cowboys", choices)
    ("Dallas Cowboys", 90)
```
- Essayer fuzzywuzzy. Ont trouvé, si le changement "Giants de New York" à, disons, "Giants de New York Dallas Cowboys", processus.extrait("jets de new york", choix, limit=2) produit [('Jets de New York', 100), ('Giants de New York des Cowboys de Dallas', 86)]. Savez-vous pourquoi le match de la deuxième correspondance floue monte? Il ne fait pas beaucoup de sens.
- eu d'avertissement, "lib/python2.7/site-packages/fuzzywuzzy/fuzz.py:35: UserWarning: à l'Aide de slow pur python SequenceMatcher. Installer python-Levenshtein pour supprimer cet avertissement mises en garde.warn ("à l'Aide de slow pur python SequenceMatcher. Installer python-Levenshtein pour supprimer cette mise en garde")"
- installer python-Levenshtein FuzzyWuzzy utilise difflib, qui fait partie de la bibliothèque standard. Pour de meilleures performances de lecture, cependant, vous pouvez installer python-Levenshtein module correspondant à la séquence ci-dessus. pypi.org/project/python-Levenshtein
InformationsquelleAutor congusbongus
78

Il y a un module dans la bibliothèque standard (appelé difflib) qui permet de comparer des chaînes et retourner un score en fonction de leur similarité. Le SequenceMatcher classe devrait faire ce que vous êtes après.

EDIT: Petit exemple de python invite:
```
>>> from difflib import SequenceMatcher as SM
>>> s1 = ' It was a dark and stormy night. I was all alone sitting on a red chair. I was not completely alone as I had three cats.'
>>> s2 = ' It was a murky and stormy night. I was all alone sitting on a crimson chair. I was not completely alone as I had three felines.'
>>> SM(None, s1, s2).ratio()
0.9112903225806451
```
HTH!
- Merci @mac. C'est exactement ce que je recherche. Je suis juste avoir de la difficulté à trouver un moyen d'obtenir le programme à dire si une phrase est à l'opposé de l'original. Python ont une bibliothèque qui va m'aider avec la grammaire situations pour résoudre ce problème?
- Qui sonne comme un problème vraiment difficile, mais la réponse canonique pour tout ce qui concerne les langues naturelles en Python est NLTK, nltk.org.
- Je doute qu'une telle chose existe, sauf si vous indiquez que "en face" signifie dans ce cas. Est ab à l'opposé de zy? Ou est ab à l'opposé de ba? etc.
- Eh bien dans ce cas..."j'étais tout seul" et "je n'étais pas le seul" sont à l'opposé des phrases ou des chaînes. Un de positif à une connotation négative.
- Je fais d'accord avec les autres commentateurs!
- Dans ce cas, vous pouvez avoir un coup d'oeil à la PNL et de l'analyse des sentiments.
- Oh merci, je vais regarder de regarder les informations qui ont été fournies.
- N'oubliez pas d'accepter cette réponse si vous êtes satisfait.
- J'ai fait quelques expériences comparant les deux SequenceMatcher et fuzzywuzzy. Les résultats sont presque les mêmes. Quelle est la différence dans les algorithmes utilisés par eux?
- Comme le asnwer sur fuzzywuzzy dit, fuzzyfuzzy est basé sur difflib, voir la réponse pour plus de détails. D'ailleurs: cette réponse est antérieure à fuzzywuzzy de plus en plus populaire paquet en environ 3 ans! 😉
InformationsquelleAutor mac

fuzzyset est beaucoup plus rapide que fuzzywuzzy (difflib) à des fins d'indexation et de recherche.

from fuzzyset import FuzzySet
corpus = """It was a murky and stormy night. I was all alone sitting on a crimson chair. I was not completely alone as I had three felines
    It was a murky and tempestuous night. I was all alone sitting on a crimson cathedra. I was not completely alone as I had three felines
    I was all alone sitting on a crimson cathedra. I was not completely alone as I had three felines. It was a murky and tempestuous night.
    It was a dark and stormy night. I was not alone. I was not sitting on a red chair. I had three cats."""
corpus = [line.lstrip() for line in corpus.split("\n")]
fs = FuzzySet(corpus)
query = "It was a dark and stormy night. I was all alone sitting on a red chair. I was not completely alone as I had three cats."
fs.get(query)
# [(0.873015873015873, 'It was a murky and stormy night. I was all alone sitting on a crimson chair. I was not completely alone as I had three felines')]

Avertissement: attention de ne pas mélanger les unicode et bytes dans votre fuzzyset.

Comment extraire uniquement le texte
de la même manière que vous le feriez extrait de la première ligne, dernière colonne " de toute python liste de tuples: fs.get(query)[0][-1]
Thankx.. 🙂 je vais certainement utiliser ce.

InformationsquelleAutor hobs

1

La tâche est appelée Paraphrase D'Identification qui est un domaine actif de la recherche en Traitement du Langage Naturel. J'ai associé à plusieurs de l'état de l'art des papiers dont beaucoup vous pouvez trouver le code source sur GitHub pour.

Noter que tous les participants ont répondu à la question supposer qu'il n'y est une chaîne de caractères/de la surface de la similitude entre les deux phrases, alors qu'en réalité deux phrases avec peu de similarité de chaînes peuvent être sémantiquement similaires.

Si vous êtes intéressé par ce genre de similitude, vous pouvez utiliser Skip-Pensées.
Installer le logiciel selon le GitHub de guides et d'aller à paraphraser la détection de la section dans le fichier readme:
```
import skipthoughts
model = skipthoughts.load_model()
vectors = skipthoughts.encode(model, X_sentences)
```
Ce convertit vos phrases (X_sentences) de vecteurs. Plus tard, vous pouvez trouver la similitude de deux vecteurs par:
```
similarity = 1 - scipy.spatial.distance.cosine(vectors[0], vectors[1])
```
où nous sommes en supposant que le vecteur[0] et le vecteurUn sont le vecteur correspondant à X_sentences[0], X_sentencesUn qui vous vouliez trouver leurs scores.

Il existe d'autres modèles de convertir une peine d'un vecteur où vous pouvez trouver ici.

Une fois que vous convertissez vos phrases à vecteurs de la similitude est juste une question de trouver la similarité Cosinus entre les vecteurs.

InformationsquelleAutor Ash

Vous devez vous connecter pour publier un commentaire.