Texte de clustering avec Levenshtein distances

J'ai un (2k - 4k) de petites chaînes (de 3 à 6 caractères) et je tiens à les regrouper. Depuis que j'utilise les cordes, les réponses précédentes sur Comment clustering (en particulier de la Chaîne de clustering) de travail?, m'a informé que Levenshtein est bon d'être utilisé comme une fonction de distance pour les chaînes. Aussi, puisque je ne sais pas à l'avance le nombre de clusters, le clustering hiérarchique est le chemin à parcourir et pas de k-means.

Bien que j'ai eu le problème dans sa forme abstraite, je ne sais pas quelle est la easie façon de le faire réellement. Par exemple, MATLAB ou R un meilleur choix pour la mise en œuvre effective de la classification hiérarchique avec la fonction personnalisée (Levenshtein).
Pour les deux logiciels, on peut facilement trouver un Levenshtein mise en œuvre. Le regroupement partie semble plus difficile. Par exemple Clustering de texte dans MATLAB calcule la distance de tableau pour toutes les chaînes, mais je ne comprends pas comment utiliser la distance de tableau pour obtenir effectivement le clustering. Pouvez-vous tout de vous les gourous de me montrer le chemin à la façon de mettre en œuvre la classification hiérarchique dans MATLAB ou R avec une fonction personnalisée?

  • Il peut dépendre du type de clustering hiérarchique que vous utilisez. Seul lien & complet de liaison HC peut être effectuée w/ juste une matrice de distance, donc une fois que vous avez que quel que soit la méthode, normale de clustering fonctions (par exemple, hclust) devrait fonctionner correctement. Otoh, que, liaison moyenne ou de la méthode de Ward besoin de recalculer les distances à chaque étape, de sorte qu'ils seraient plus compliqués à mettre en œuvre.
  • Donc dans MATLAB Z = lien(Y,méthode) serait de travailler avec une matrice de distance calculée et la méthode complète par exemple. Droit?
  • J'aurais du deviner que la réponse est "oui". Il a été un long temps depuis que je l'ai utilisé MATLAB, & je n'ai jamais fait de regroupement w/ elle.
InformationsquelleAutor Alexandros | 2014-02-02