Similarité cosinus vs distance de Hamming

Pour calculer la similarité entre deux documents, j'ai créer un vecteur contenant le terme de fréquences. Mais alors, pour la prochaine étape, je ne peux pas décider entre "Similarité cosinus" et "La distance de Hamming".

Ma question: avez-vous une expérience avec ces algorithmes? Qui vous donne de meilleurs résultats?

En outre que: Pourriez-vous me dire comment faire pour le code de la similarité Cosinus en PHP? Pour la distance de Hamming, j'ai déjà le code:

function check ($terms1, $terms2) {
    $counts1 = array_count_values($terms1);
    $totalScore = 0;
    foreach ($terms2 as $term) {
        if (isset($counts1[$term])) $totalScore += $counts1[$term];
    }
    return $totalScore * 500 / (count($terms1) * count($terms2));
}

Je ne veux pas utiliser un autre algorithme. Je voudrais seulement avoir de l'aide pour décider entre les deux.

Et peut-être que quelqu'un peut dire quelque chose sur la façon d'améliorer les algorithmes. Vous obtiendrez de meilleurs résultats si vous filtrez l'arrêt de mots ou des mots communs?

J'espère que vous pourrez m'aider. Merci à l'avance!

OriginalL'auteur caw | 2009-06-03