La PNL/Apprentissage de la Machine de comparaison de texte
Je suis actuellement en train de développer un programme avec la possibilité de comparer un texte de petite taille (disons 250 caractères) à une collection de textes similaires (autour de 1000 à 2000 textes).
Le but est de evalute si Un texte est semblable à un ou plusieurs textes dans le recueil et le cas échéant, le texte dans la collection doit être récupérable par ID. Chacun des textes à avoir un ID unique.
Il y a deux façons j'aimerais la sortie:
Option 1:
Texte Un Texte correspondant B avec 90% de similarité, Texte C avec 70% de similarité, et ainsi de suite.
Option 2:
Texte Un Texte correspondant D avec la plus grande similarité
J'ai lu certains de la machine d'apprentissage à l'école, mais je ne suis pas sûr de l'algorithme convient à ce problème, le mieux ou si je dois envisager l'utilisation de la PNL (pas familier avec le sujet).
Quelqu'un a une suggestion de ce que l'algorithme à utiliser ou où je peux trouver le nessecary de la littérature pour résoudre mon problème?
Merci pour toute contribution!
OriginalL'auteur RobertH | 2013-08-26
Vous devez vous connecter pour publier un commentaire.
Il ne semble pas être un problème d'apprentissage de la machine, vous êtes simplement à la recherche pour certains texte mesure de similarité. Une fois que vous sélectionnez un, il vous suffit de tri de vos données selon atteints "scores".
En fonction de vos textes, vous pouvez utiliser l'une des mesures suivantes (liste du wiki) ou définir votre propre:
Certains de ce qui précède (comme ie. similarité cosinus) exiger la transformation de vos données en format vectorisé. Ce processus peut également être réalisé de plusieurs façons, la plus simple possible sac de mots/tfidf techniques.
Liste elle-même est loin d'être complète, n'est qu'un projet d'une telle méthode. En particulier, il y a beaucoup de chaîne de noyaux, qui sont également adaptées pour mesurer texte de la similitude. En particulier Wordnet Noyau peut mesurer la ressemblance sémantique fondée sur l'un des plus complets sémantique databse de la langue anglaise.
ajout d'un lien vers le texte
Tf-idf est un terme système de pondération, FASTA et BLAST sont la biologie computationnelle des paquets. -1 pour la critique copier-coller de Wikipedia.
merci pour la clarification de votre downvote, même si ces aspects sont difficiles à considérer comme de raison, la réponse étant "mauvais" ou "mauvais".
Je les ai appelés "texte des mesures de similarité", ce qui ne semble pas en contradiction avec populaire métriques pour vectorisé au format. Je risque d'en précisant, que la similarité cosinus est l'une des approches les plus communes pour mesurer texte similitude dans des applications simples.
OriginalL'auteur lejlot
J'ai trouvé un grand article pour ressemblance sémantique de la mesure qui est parfait pour mon problème.
WordNet en fonction de similarité sémantique de mesure
Merci pour tous les commentaires!
OriginalL'auteur RobertH