La PNL/Apprentissage de la Machine de comparaison de texte

Je suis actuellement en train de développer un programme avec la possibilité de comparer un texte de petite taille (disons 250 caractères) à une collection de textes similaires (autour de 1000 à 2000 textes).

Le but est de evalute si Un texte est semblable à un ou plusieurs textes dans le recueil et le cas échéant, le texte dans la collection doit être récupérable par ID. Chacun des textes à avoir un ID unique.

Il y a deux façons j'aimerais la sortie:

Option 1:
Texte Un Texte correspondant B avec 90% de similarité, Texte C avec 70% de similarité, et ainsi de suite.

Option 2:
Texte Un Texte correspondant D avec la plus grande similarité

J'ai lu certains de la machine d'apprentissage à l'école, mais je ne suis pas sûr de l'algorithme convient à ce problème, le mieux ou si je dois envisager l'utilisation de la PNL (pas familier avec le sujet).

Quelqu'un a une suggestion de ce que l'algorithme à utiliser ou où je peux trouver le nessecary de la littérature pour résoudre mon problème?

Merci pour toute contribution!

OriginalL'auteur RobertH | 2013-08-26