Tutoriel pour scipy.cluster.hiérarchie

Je suis en train d'essayer de comprendre comment manipuler une hiérarchie de clusters mais la documentation est trop ... technique?... et je ne peux pas comprendre comment il fonctionne.

Est-il un tutoriel qui pourrait m'aider à démarrer avec, en expliquant, étape par étape, des tâches simples?

Disons que j'ai les données suivantes:

a = np.array([[0,   0  ],
              [1,   0  ],
              [0,   1  ],
              [1,   1  ], 
              [0.5, 0  ],
              [0,   0.5],
              [0.5, 0.5],
              [2,   2  ],
              [2,   3  ],
              [3,   2  ],
              [3,   3  ]])

Je peux facilement faire la hiérarchie de clusters et de tracer le dendrogramme:

z = linkage(a)
d = dendrogram(z)

Maintenant, comment je peux récupérer un cluster spécifique? Disons que l'un avec des éléments [0,1,2,4,5,6] dans le dendrogramme?
Comment je peux récupérer les valeurs des éléments?

InformationsquelleAutor user2988577 | 2014-02-07

61

Il y a trois étapes dans la classification ascendante hiérarchique de clustering (HAC):
1. Quantifier les Données (metric argument)
2. De Données du Cluster (method argument)
3. Choisir le nombre de clusters
Faire
```
z = linkage(a)
```
permettra d'accomplir les deux premières étapes. Puisque vous n'avez pas spécifier tous les paramètres, il utilise les valeurs standard
1. metric = 'euclidean'
2. method = 'single'
Donc z = linkage(a) vous donnera un unique lié hiérarchique ascendante regroupement des a. Ce regroupement est une sorte de hiérarchie des solutions. À partir de cette hiérarchie, vous obtenez quelques informations sur la structure de vos données. Ce que vous pouvez faire maintenant est:
- Vérifier metric est approprié, l'e. g. cityblock ou chebychev permettra de quantifier vos données différemment (cityblock, euclidean et chebychev correspondent à L1, L2, et L_inf norme)
- Vérifier les différentes propriétés /comportements de la methdos (e. g. single, complete et average)
- Vérifier comment déterminer le nombre de clusters, de l'e. g. par lire le wiki à ce sujet
- De calcul des indices sur les trouvé des solutions (clusterings) comme le silhouette coefficient (avec ce coefficient de vous obtenir une rétroaction sur la qualité de la façon dont bon un point d'observation correspond au cluster, il est attribué par le regroupement (clustering). Différents indices utiliser différents critères pour qualifier un clustering.
Ici est quelque chose à démarrer avec
```
import numpy as np
import scipy.cluster.hierarchy as hac
import matplotlib.pyplot as plt
a = np.array([[0.1,   2.5],
[1.5,   .4 ],
[0.3,   1  ],
[1  ,   .8 ],
[0.5,   0  ],
[0  ,   0.5],
[0.5,   0.5],
[2.7,   2  ],
[2.2,   3.1],
[3  ,   2  ],
[3.2,   1.3]])
fig, axes23 = plt.subplots(2, 3)
for method, axes in zip(['single', 'complete'], axes23):
z = hac.linkage(a, method=method)
# Plotting
axes[0].plot(range(1, len(z)+1), z[::-1, 2])
knee = np.diff(z[::-1, 2], 2)
axes[0].plot(range(2, len(z)), knee)
num_clust1 = knee.argmax() + 2
knee[knee.argmax()] = 0
num_clust2 = knee.argmax() + 2
axes[0].text(num_clust1, z[::-1, 2][num_clust1-1], 'possible\n<- knee point')
part1 = hac.fcluster(z, num_clust1, 'maxclust')
part2 = hac.fcluster(z, num_clust2, 'maxclust')
clr = ['#2200CC' ,'#D9007E' ,'#FF6600' ,'#FFCC00' ,'#ACE600' ,'#0099CC' ,
'#8900CC' ,'#FF0000' ,'#FF9900' ,'#FFFF00' ,'#00CC01' ,'#0055CC']
for part, ax in zip([part1, part2], axes[1:]):
for cluster in set(part):
ax.scatter(a[part == cluster, 0], a[part == cluster, 1], 
color=clr[cluster])
m = '\n(method: {})'.format(method)
plt.setp(axes[0], title='Screeplot{}'.format(m), xlabel='partition',
ylabel='{}\ncluster distance'.format(m))
plt.setp(axes[1], title='{} Clusters'.format(num_clust1))
plt.setp(axes[2], title='{} Clusters'.format(num_clust2))
plt.tight_layout()
plt.show()
```
Donne
- Pourriez-vous expliquer comment la np.diff est utilisé pour trouver le coude? Pourquoi utilisez-vous dans le second degré, et qu'est-ce que l'interprétation mathématique de ce point?
- Chaque nombre sur l'axe des abscisses est une solution possible, qui consiste en le nombre de partitions. Maintenant, évidemment, le plus de partitions vous permettre, plus l'homogénéité dans les groupes seront. Donc, ce que vous voulez vraiment est: Faible nombre de partitions avec haute homogénéité (dans la plupart des cas). C'est pourquoi vous recherchez le "genou" point, je. e. le point avant, la valeur de la distance "saute" d'une valeur beaucoup plus élevée par rapport à l'augmentation de l'avant.
- Quand travaillé avec des dérivés de valeurs discrètes, je n'ai pas remarqué une différence entre le premier et le second degré. En quelque sorte, c'est arrivé juste. En fait, j'ai découvert que l'on peut utiliser la formule de la courbure de trouver le "plus fort" point de genou, mais je veux dire: c'est à vous de toute façon d'évaluer la parcelle par la visualisation. Il peut servir en outre de l'orientation. C'est en fonction de coude de la méthode sur le wiki, je dirais.
- Merci pour l'excellent point de départ! D'où vient la magie numéro "2", dans lignes comme ceci knee = np.diff(z[::-1, 2], 2) nombre de dimensions ou de quelque chose? Quel est exactement le bleu de la ligne que vous avez tracée entre les cluster de la variance ou de quelque chose / à l'intérieur du cluster de la variance, ou quelque chose? Merci d'avance
- 2] est de la troisième colonne de la matrice de couplage. Ces valeurs dépendent de la metric et le method. La métrique determindes comment quantifier la distance entre les objets (lignes de la matrice de données a) et la méthode détermine la façon dont ces distances sont recalculés ou "a ajouté:" lorsque les grappes sont fusionnés. Et ces valeurs (troisième colonne de liaison) sont en fait également la ligne bleue. np.diff(.., 2) est la dérivée seconde (courbe verte), soulignant un point de genou dans la courbe bleue. Il y a beaucoup de façons de deviner ce qui pourrait être un "bon" nombre de partitions...
- Mais pourquoi la troisième colonne de liaison privilégiée pour déterminer le point de genou de partir pour l'ensemble de ces méthodes?
- Je suis confus par le passage des données directement à linkage. N'a pas de liaison s'attendent à un "condensé matrice de distance" des données par la documentation?
- Quelle est la différence entre le coude et le genou point? Je ne trouve pas de documentation expliquant ce qu'est un point de genou est mais de ce que je vois ici, il semble presque identique à ce que je comprends le coude point de l'être.
- le genou est le coude.
- Il y a un autre simplifiée tutoriel sur la scipy de clustering hiérarchique à: joernhees.de/blog/2015/08/26/...
InformationsquelleAutor embert

Vous devez vous connecter pour publier un commentaire.