Comment dois-je prévoir de nouvelles données du cluster après le clustering des données d'entraînement?
Je suis nouveau sur R, et j'ai déjà formé le modèle à l'aide de hclust
:
model=hclust(distances,method="ward”)
Et le résultat semble bon:
Maintenant, je reçois quelques nouveaux enregistrements de données, je veux prédire que le cluster de chacun d'entre eux appartient à. Comment puis-je le faire ?
Ce que vous décrivez ressemble plus à de la classification. Voir, par exemple, la
comment avez-vous résolu le problème en utilisant des knn? avez-vous un exemple?
Il utilise knn rdocumentation.org/packages/arules/versions/1.5-0/topics/...
knn(...)
fonction package de la classe.comment avez-vous résolu le problème en utilisant des knn? avez-vous un exemple?
Il utilise knn rdocumentation.org/packages/arules/versions/1.5-0/topics/...
OriginalL'auteur MrROY | 2014-01-11
Vous devez vous connecter pour publier un commentaire.
Clustering n'est pas censé "classer" les nouvelles données, comme le nom le suggère, c'est le concept de base de classification.
Certains des algorithmes de clustering (comme ceux centroïde de base - kmeans, kmedians etc.) peut "étiquette" nouvelle instance basée sur le modèle créé. Malheureusement, le clustering hiérarchique n'est pas l'un d'eux - il n'a pas de partition de l'espace d'entrée, c'est juste "se connecte" certains des objets donnés au cours de clustering, de sorte que vous ne pouvez pas affecter le nouveau point de ce modèle.
La seule "solution" pour utiliser le hclust pour "classer" est de créer un autre classificateur sur le dessus de l'étiquette des données fournies par le hclust. Par exemple, vous pouvez maintenant former knn (même avec k=1) sur les données avec des étiquettes à partir de hclust et de l'utiliser pour attribuer des étiquettes à de nouveaux points.
knn
idée vaut la peine d'essayer.OriginalL'auteur lejlot
Vous pouvez utiliser cette classification et ensuite utiliser LDA pour prédire la classe à laquelle le nouveau point de chute.
OriginalL'auteur Praveen
Je suis face au même problème et de trouver une solution temporelle.
hclust
donne l'étiquette pour le train de données.De la même façon, nous pouvons utiliser la méthode PCA sur la fonctionnalité et de l'extrait de PC1 comme une étiquette.
Dans R, je trouve PCA de la méthode processus beaucoup plus rapide que
hclust
. (Mayank 2016)Dans la pratique, je trouve que cette méthode est facile à déployer le modèle.
Mais je soupçonne que ce temporelle les résultats de la solution en biais sur la prédiction ou pas.
Ref
Mayank. 2016. “Hclust() dans R sur de Grands ensembles de données.” Un Débordement De Pile. hclust() dans R sur de grands ensembles de données.
OriginalL'auteur Jiaxiang
Pourquoi ne pas calculer le centre de gravité des points pour chaque hclust de cluster, puis attribuez-lui un nouveau point le plus proche en utilisant la même fonction de distance ?
knn dans la classe ne regarde plus proche de n et permet uniquement de la distance Euclidienne.
Il n'y a pas besoin d'exécuter un classificateur.
L'approche ci-dessus est d'autant plus valable pour kmeans. En ce qui concerne le HCA, je me demande si un arbre technique de découpage peut être employé sur la base des résultats du dendrogramme?
OriginalL'auteur Chris