Comment dois-je prévoir de nouvelles données du cluster après le clustering des données d'entraînement?

Je suis nouveau sur R, et j'ai déjà formé le modèle à l'aide de hclust:

 model=hclust(distances,method="ward”)

Et le résultat semble bon:

Maintenant, je reçois quelques nouveaux enregistrements de données, je veux prédire que le cluster de chacun d'entre eux appartient à. Comment puis-je le faire ?

Ce que vous décrivez ressemble plus à de la classification. Voir, par exemple, la knn(...) fonction package de la classe.
comment avez-vous résolu le problème en utilisant des knn? avez-vous un exemple?
Il utilise knn rdocumentation.org/packages/arules/versions/1.5-0/topics/...

OriginalL'auteur MrROY | 2014-01-11

6

Clustering n'est pas censé "classer" les nouvelles données, comme le nom le suggère, c'est le concept de base de classification.

Certains des algorithmes de clustering (comme ceux centroïde de base - kmeans, kmedians etc.) peut "étiquette" nouvelle instance basée sur le modèle créé. Malheureusement, le clustering hiérarchique n'est pas l'un d'eux - il n'a pas de partition de l'espace d'entrée, c'est juste "se connecte" certains des objets donnés au cours de clustering, de sorte que vous ne pouvez pas affecter le nouveau point de ce modèle.

La seule "solution" pour utiliser le hclust pour "classer" est de créer un autre classificateur sur le dessus de l'étiquette des données fournies par le hclust. Par exemple, vous pouvez maintenant former knn (même avec k=1) sur les données avec des étiquettes à partir de hclust et de l'utiliser pour attribuer des étiquettes à de nouveaux points.

Grand, le knn idée vaut la peine d'essayer.

OriginalL'auteur lejlot
1

Vous pouvez utiliser cette classification et ensuite utiliser LDA pour prédire la classe à laquelle le nouveau point de chute.

OriginalL'auteur Praveen
0

Je suis face au même problème et de trouver une solution temporelle.
1. Dans mon environnement de R, la fonction hclust donne l'étiquette pour le train de données.
2. Nous pouvons utiliser un apprentissage supervisé du modèle de la reconnexion de l'étiquette et de fonctionnalités.
3. Et alors que nous venons de faire le même traitement de données lorsque nous avons affaire à un apprentissage supervisé du modèle.
4. Si nous sommes confrontés à une classification binaire du modèle, nous pouvons utiliser KS valeur, l'ASC de la valeur et ainsi de suite pour voir la performance de ce regroupement.
De la même façon, nous pouvons utiliser la méthode PCA sur la fonctionnalité et de l'extrait de PC1 comme une étiquette.
1. De binning ce label, nous obtenons une nouvelle étiquette intégrée à la classification.
2. De la même manière, nous faisons le même traitement quand on a affaire à un modèle de classification.
Dans R, je trouve PCA de la méthode processus beaucoup plus rapide que hclust. (Mayank 2016)
Dans la pratique, je trouve que cette méthode est facile à déployer le modèle.
Mais je soupçonne que ce temporelle les résultats de la solution en biais sur la prédiction ou pas.

Ref

Mayank. 2016. “Hclust() dans R sur de Grands ensembles de données.” Un Débordement De Pile. hclust() dans R sur de grands ensembles de données.

OriginalL'auteur Jiaxiang
-3

Pourquoi ne pas calculer le centre de gravité des points pour chaque hclust de cluster, puis attribuez-lui un nouveau point le plus proche en utilisant la même fonction de distance ?

knn dans la classe ne regarde plus proche de n et permet uniquement de la distance Euclidienne.

Il n'y a pas besoin d'exécuter un classificateur.

parce que le clustering hiérarchique ne permet pas de créer des clusters où le centre de gravité est un objet défini. Vous êtes loin de la vérité ici, classificateur est nécessaire dans de tels cas, 1nn (suggéré ci-dessus) est la plus simple et probablement la solution suffisante (son code est encore plus simple que votre suggestion) et il va travailler, même si le calcul des centroïdes ne sera pas.
L'approche ci-dessus est d'autant plus valable pour kmeans. En ce qui concerne le HCA, je me demande si un arbre technique de découpage peut être employé sur la base des résultats du dendrogramme?

OriginalL'auteur Chris

Vous devez vous connecter pour publier un commentaire.