La PNL/Apprentissage de la Machine de comparaison de texte

Je suis actuellement en train de développer un programme avec la possibilité de comparer un texte de petite taille (disons 250 caractères) à une collection de textes similaires (autour de 1000 à 2000 textes).

Le but est de evalute si Un texte est semblable à un ou plusieurs textes dans le recueil et le cas échéant, le texte dans la collection doit être récupérable par ID. Chacun des textes à avoir un ID unique.

Il y a deux façons j'aimerais la sortie:

Option 1:
Texte Un Texte correspondant B avec 90% de similarité, Texte C avec 70% de similarité, et ainsi de suite.

Option 2:
Texte Un Texte correspondant D avec la plus grande similarité

J'ai lu certains de la machine d'apprentissage à l'école, mais je ne suis pas sûr de l'algorithme convient à ce problème, le mieux ou si je dois envisager l'utilisation de la PNL (pas familier avec le sujet).

Quelqu'un a une suggestion de ce que l'algorithme à utiliser ou où je peux trouver le nessecary de la littérature pour résoudre mon problème?

Merci pour toute contribution!

OriginalL'auteur RobertH | 2013-08-26

22

Il ne semble pas être un problème d'apprentissage de la machine, vous êtes simplement à la recherche pour certains texte mesure de similarité. Une fois que vous sélectionnez un, il vous suffit de tri de vos données selon atteints "scores".

En fonction de vos textes, vous pouvez utiliser l'une des mesures suivantes (liste du wiki) ou définir votre propre:
- De Hamming distance
- Levenshtein et la distance de damerau–Levenshtein
- Needleman–Wunsch, de distance ou de Vendeurs algorithme
- Smith–Waterman distance
- Gotoh distance ou de Smith-Waterman-Gotoh distance
- Monge Elkan distance
- Bloc de la distance ou de la L1 de distance ou de pâté de maisons de distance
- Jaro–Winkler distance
- Soundex distance métrique
- Une Simple correspondance coefficient (SMC)
- Dés le coefficient de
- De similarité de Jaccard ou coefficient de Jaccard ou Tanimoto coefficient
- Tversky indice
- Chevauchement coefficient
- Distance euclidienne ou L2 de distance
- Similarité cosinus
- Variationnelle distance
- Hellinger la distance ou de la distance de Bhattacharyya
- Informations rayon (divergence de Jensen–Shannon)
- Inclinaison divergence
- Confusion probabilité
- Tau métrique, une approximation de la Kullback–Leibler
- Fellegi et Sunters métrique (SFS)
- Maximale correspond à
- Lee distance
Certains de ce qui précède (comme ie. similarité cosinus) exiger la transformation de vos données en format vectorisé. Ce processus peut également être réalisé de plusieurs façons, la plus simple possible sac de mots/tfidf techniques.

Liste elle-même est loin d'être complète, n'est qu'un projet d'une telle méthode. En particulier, il y a beaucoup de chaîne de noyaux, qui sont également adaptées pour mesurer texte de la similitude. En particulier Wordnet Noyau peut mesurer la ressemblance sémantique fondée sur l'un des plus complets sémantique databse de la langue anglaise.

Pouvez-vous me donner le lien vers le wiki? Merci pour l'entrée
ajout d'un lien vers le texte
Tf-idf est un terme système de pondération, FASTA et BLAST sont la biologie computationnelle des paquets. -1 pour la critique copier-coller de Wikipedia.
merci pour la clarification de votre downvote, même si ces aspects sont difficiles à considérer comme de raison, la réponse étant "mauvais" ou "mauvais".
Je les ai appelés "texte des mesures de similarité", ce qui ne semble pas en contradiction avec populaire métriques pour vectorisé au format. Je risque d'en précisant, que la similarité cosinus est l'une des approches les plus communes pour mesurer texte similitude dans des applications simples.

OriginalL'auteur lejlot
3

J'ai trouvé un grand article pour ressemblance sémantique de la mesure qui est parfait pour mon problème.

WordNet en fonction de similarité sémantique de mesure

Merci pour tous les commentaires!

Je suis assez nouveau dans ML et a été l'espoir d'utiliser le cloud ML services de Google, Azire,Watson. J'ai besoin pour résoudre texte de comparaison, qu'avez-vous mettre en œuvre?

OriginalL'auteur RobertH

Vous devez vous connecter pour publier un commentaire.