Algorithme de similarité de texte

J'ai deux fichiers de sous-titres.
J'ai besoin d'une fonction qui indique si elles représentent le même texte, ou le texte similaire

Parfois il y a des commentaires comme "Le vent souffle... la musique est" dans un seul fichier.
Mais 80% du contenu sera le même. La fonction doit retourner TRUE (les fichiers représentent le même texte).
Et parfois il y a des fautes d'orthographe comme 1 au lieu de l (un - L ) comme ici:
Elle 1eft les bagages.
Bien sûr, cela signifie que la fonction doit retourner TRUE.

Mes commentaires:
La fonction doit retourner pourcentage de la similitude des textes - d'ACCORD

"tous les gens étaient heureux" et "tous les gens n'étaient pas heureux" - ici, ce serait considéré comme une faute d'orthographe, de sorte que d être considéré comme le même texte. Pour être exact, le pourcentage de la fonction renvoie sera plus faible, mais suffisamment élevée pour dire les phrases sont similaires

Ne prendre en compte si vous souhaitez appliquer Levenshtein sur un fichier entier ou juste une chaîne de recherche - pas sûr au sujet de Levenshtein, mais l'algorithme doit être appliqué à l'ensemble du fichier. Ça va être une très longue chaîne de caractères.

source d'informationauteur EugeneP