Python sklearn-KMeans comment obtenir les valeurs dans le cluster

Je suis en utilisant le sklearn.cluster KMeans paquet. Une fois que j'ai fini le clustering si j'ai besoin de savoir quelles valeurs ont été regroupées comment puis-je le faire?

Dire que j'ai eu 100 points de données et KMeans m'a donné 5 cluster. Maintenant, je veux savoir les points de données sont dans le groupe 5. Comment puis-je le faire.

Est-il une fonction de donner l'id du cluster et il donnera la liste de tous les points de données d'un cluster

Grâce.

J'ai juste apporté une réponse répondre à votre question. Laissez-moi savoir si cela aide.
vous pouvez utiliser .labels_ pour vérifier

OriginalL'auteur user77005 | 2016-03-24

21

J'ai eu une demande similaire et je suis en utilisant des pandas pour créer un nouveau dataframe avec l'index du jeu de données et les étiquettes de colonnes.
```
data = pd.read_csv('filename')

km = KMeans(n_clusters=5).fit(data)

cluster_map = pd.DataFrame()
cluster_map['data_index'] = data.index.values
cluster_map['cluster'] = km.labels_
```
Une fois le DataFrame est disponible est assez facile de filtre,
Par exemple, pour filtrer tous les points de données dans le cluster 3
```
cluster_map[cluster_map.cluster == 3]
```
il n'est pas nécessaire d'utiliser des pandas
Lors de l'apprentissage de nouveaux modèles, je semble avoir des difficultés avec cette dernière partie du retour de la modélisation des données à la source originale. La plupart des tutoriels ne montrent pas que. Je vous remercie pour votre réponse.
Êtes-vous sûr qu'il va être indexé correctement? Est-ce que votre solution de préserver l'ordre des lignes lors de la reconstruction de dataframe de km.labels_ comme il était avant le clustering?

OriginalL'auteur Praveen

Si vous avez un grand jeu de données et vous avez besoin d'extraire des grappes sur la demande vous le verrez un peu de vitesse à l'aide de numpy.où. Voici un exemple sur l'iris dataset:

from sklearn.cluster import KMeans
from sklearn import datasets
import numpy as np

centers = [[1, 1], [-1, -1], [1, -1]]
iris = datasets.load_iris()
X = iris.data
y = iris.target

km = KMeans(n_clusters=3)
km.fit(X)

Définir une fonction pour extraire les indices de la cluster_id vous fournir. (Ici, deux fonctions sont, pour l'analyse comparative, ils reviennent tous les deux les mêmes valeurs):

def ClusterIndicesNumpy(clustNum, labels_array): #numpy 
    return np.where(labels_array == clustNum)[0]

def ClusterIndicesComp(clustNum, labels_array): #list comprehension
    return np.array([i for i, x in enumerate(labels_array) if x == clustNum])

Disons que vous voulez tous les échantillons qui sont dans le groupe 2:

ClusterIndicesNumpy(2, km.labels_)
array([ 52,  77, 100, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112,
       115, 116, 117, 118, 120, 122, 124, 125, 128, 129, 130, 131, 132,
       134, 135, 136, 137, 139, 140, 141, 143, 144, 145, 147, 148])

Numpy gagne la référence:

%timeit ClusterIndicesNumpy(2,km.labels_)

100000 loops, best of 3: 4 µs per loop

%timeit ClusterIndicesComp(2,km.labels_)

1000 loops, best of 3: 479 µs per loop

Maintenant, vous pouvez extraire tous de votre cluster de 2 points de données comme suit:

X[ClusterIndicesNumpy(2,km.labels_)]

array([[ 6.9,  3.1,  4.9,  1.5], 
       [ 6.7,  3. ,  5. ,  1.7],
       [ 6.3,  3.3,  6. ,  2.5], 
       ... #truncated

Double-vérifier les trois premiers indices de l'tronquée tableau ci-dessus:

print X[52], km.labels_[52]
print X[77], km.labels_[77]
print X[100], km.labels_[100]

[ 6.9  3.1  4.9  1.5] 2
[ 6.7  3.   5.   1.7] 2
[ 6.3  3.3  6.   2.5] 2

OriginalL'auteur Kevin

2

Vous pouvez regarder attribut labels_

Par exemple
```
km = KMeans(2)
km.fit([[1,2,3],[2,3,4],[5,6,7]])
print km.labels_
output: array([1, 1, 0], dtype=int32)
```
Comme vous pouvez le voir le premier et le deuxième point est de cluster 1, dernier point dans le groupe 0.

Oui, cette méthode pourrait fonctionner. mais quand il y a beaucoup de point de données de l'itération à travers chacun d'eux pour obtenir les étiquettes n'est pas efficace. Je n'étais tout simplement la liste des points de données pour un cluster donné. N'est-ce pas là une autre façon de le faire?
voir la réponse que j'ai posté juste

OriginalL'auteur Farseer
0

Vous pouvez facilement stocker les étiquettes dans un tableau. Convertir le tableau d'une trame de données. Fusionner les données que vous avez utilisé pour créer des K-dire avec le nouveau bloc de données avec des clusters.

Afficher le dataframe. Maintenant, vous devriez voir la ligne avec le cluster correspondant. Si vous voulez la liste de toutes les données spécifiques de cluster, utilisez quelque chose comme données.loc[data['cluster_label_name'] == 2], en supposant que 2 de votre cluster pour l'instant.

OriginalL'auteur Sandeep Shahi

Pour obtenir les Identifiants des points/samples/observations qui sont à l'intérieur de chaque cluster, faire ceci:

Exemple à l'aide de données de l'Iris et une belle pythonic façon:

import numpy as np
from sklearn.cluster import KMeans
from sklearn import datasets

np.random.seed(0)

# Use Iris data
iris = datasets.load_iris()
X = iris.data
y = iris.target

# KMeans with 3 clusters
clf =  KMeans(n_clusters=3)
clf.fit(X,y)

#Coordinates of cluster centers with shape [n_clusters, n_features]
clf.cluster_centers_
#Labels of each point
clf.labels_

# Nice Pythonic way to get the indices of the points for each corresponding cluster
mydict = {i: np.where(clf.labels_ == i)[0] for i in range(clf.n_clusters)}

# Transform this dictionary into list (if you need a list as result)
dictlist = []
for key, value in mydict.iteritems():
    temp = [key,value]
    dictlist.append(temp)

RÉSULTATS

{0: array([ 50,  51,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,
64,  65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,
78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
91,  92,  93,  94,  95,  96,  97,  98,  99, 101, 106, 113, 114,
119, 121, 123, 126, 127, 133, 138, 142, 146, 149]),
1: array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]),
2: array([ 52,  77, 100, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112,
115, 116, 117, 118, 120, 122, 124, 125, 128, 129, 130, 131, 132,
134, 135, 136, 137, 139, 140, 141, 143, 144, 145, 147, 148])}
[[0, array([ 50,  51,  53,  54,  55,  56,  57,  58,  59,  60,  61,  62,  63,
64,  65,  66,  67,  68,  69,  70,  71,  72,  73,  74,  75,  76,
78,  79,  80,  81,  82,  83,  84,  85,  86,  87,  88,  89,  90,
91,  92,  93,  94,  95,  96,  97,  98,  99, 101, 106, 113, 114,
119, 121, 123, 126, 127, 133, 138, 142, 146, 149])],
[1, array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])],
[2, array([ 52,  77, 100, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112,
115, 116, 117, 118, 120, 122, 124, 125, 128, 129, 130, 131, 132,
134, 135, 136, 137, 139, 140, 141, 143, 144, 145, 147, 148])]]

OriginalL'auteur makaros

Vous devez vous connecter pour publier un commentaire.