Comment calculer le taux d'erreur de classification

Bien. Maintenant, cette question est assez difficile. Je vais vous donner un exemple.

Maintenant la gauche numéros sont mes algorithme de la classification et de la droite des nombres, qui sont les premiers numéros de la classe

Alors, voici mon algorithme fusionné les 2 classes différentes en 1. Comme vous pouvez le voir, il a fusionné classe 86 et 89 dans une classe. Alors, quelle serait l'erreur à l'exemple ci-dessus ?

Ou ici un autre exemple

À l'exemple ci-dessus à gauche numéros sont mes algorithme de classification et les bons chiffres sont d'origine id de classe. Comme on peut le voir ci-dessus-il manquer classé 3 produits (je suis la classification même des produits commerciaux). Donc, à l'exemple de ce que serait le taux d'erreur? Comment voulez-vous calculer.

Cette question est assez difficile et complexe. Nous avons terminé la classification, mais nous ne sommes pas en mesure de trouver le bon algorithme pour le calcul de taux de réussite 😀

OriginalL'auteur MonsterMMORPG | 2012-04-08

4

Voici un longuets exemple, un réel confuson matrice avec 10 entrée des classes "0" - "9"
(chiffres manuscrits),
et 10 de sortie des grappes étiquetés de A - J.
```
Confusion matrix for 5620 optdigits:

True 0 - 9 down, clusters A - J across
-----------------------------------------------------
      A    B    C    D    E    F    G    H    I    J
-----------------------------------------------------
0:    2         4         1       546    1
1:   71  249        11    1    6            228    5
2:   13    5        64    1   13    1       460
3:   29    2       507        20         5    9
4:        33  483         4   38         5    3    2
5:    1    1    2   58    3            480   13
6:    2    1    2       294         1         1  257
7:    1    5    1            546         6    7
8:  415   15    2    5    3   12        13   87    2
9:   46   72    2  357        35    1   47    2
----------------------------------------------------
    580  383  496 1002  307  670  549  557  810  266  estimates in each cluster

y class sizes: [554 571 557 572 568 558 558 566 554 562]
kmeans cluster sizes: [ 580  383  496 1002  307  670  549  557  810  266]
```
Par exemple, le cluster A a 580 points de données, 415 qui sont "8"s;
le groupe B a 383 points de données, 249 "1"; et ainsi de suite.

Le problème est que la sortie des classes sont brouillés, permutées;
ils correspondent, dans cet ordre, avec des comptages:
```
      A    B    C    D    E    F    G    H    I    J
      8    1    4    3    6    7    0    5    2    6
    415  249  483  507  294  546  546  480  460  257
```
Un pourrait dire que le "taux de réussite" est
75 % = (415 + 249 + 483 + 507 + 294 + 546 + 546 + 480 + 460 + 257) /5620

mais cela jette les informations utiles —
ici, E et J disent tous les deux "6", et pas de cluster dit "9".

Ajoutez-le plus grand des nombres de chaque colonne de la matrice de confusion
et diviser par le total.

Mais, comment compter le chevauchement /manquant clusters,
comme les 2 "6"s, n "9"s ici ?

Je ne sais pas de consensus sur la façon
(doute que le L'algorithme hongrois
est utilisé dans la pratique).

Bas de ligne: ne pas jeter de l'information; regardez l'ensemble de la matrice de confusion.

NB tel un "taux de réussite" sera optimiste pour les nouvelles données !

Il est de coutume de diviser les données en dire 2/3 "formation" et 1/3 "test set",
train par exemple k-means sur les 2/3 seul,

ensuite, mesurer la confusion /taux de réussite sur l'ensemble de test — généralement pire que sur l'ensemble de la formation seul.

Beaucoup plus peut être dit; voir par ex.
La validation croisée.

OriginalL'auteur denis
0

Vous devez définir l'erreur critères, si vous souhaitez évaluer la performance d'un algorithme, donc je ne suis pas sûr exactement ce que vous demandez. Dans certains clusters et des algorithmes d'apprentissage automatique vous définir la métrique d'erreur et l'on minimise.

Jetez un oeil à ce
https://en.wikipedia.org/wiki/Confusion_matrix
pour obtenir quelques idées

Je demande les critères.

OriginalL'auteur dfb
0

Vous devez définir une métrique d'erreur de mesurer vous-même. Dans votre cas, une méthode simple devrait être de trouver les propriétés de la cartographie de votre produit
```
p = properties(id)
```
où id est l'id de produit, et p est susceptible d'être un vecteur à chaque entrée de propriétés différentes. Ensuite, vous pouvez définir la fonction d'erreur e (ou distance) entre deux produits
```
e = d(p1, p2)
```
Bien sûr, chacun propriétés doivent être évaluées à un certain nombre dans cette fonction. Ensuite, cette fonction d'erreur peuvent être utilisés dans l'algorithme de classification et d'apprentissage.

Dans votre deuxième exemple, il semble que vous traiter la paire (203 7), selon le classement réussi, donc je pense que vous avez déjà une métrique de vous-même. Vous pouvez être plus précis pour obtenir une meilleure réponse.

et bien en fait je suis même demandé la métrique à cette question. nous devons définir notre erreur taux de succès par nos conditions et que je demande vos idées sur comment le définir.
Donc, j'ai seulement décrit l'idée générale ici. Une propriété d'un produit peut être son type ou son prix. Si les jeunes en faveur du produit de la même prix, vous pouvez simplement utiliser d(prix 1, price2)
Je pense que vous ne comprenez pas correctement à la question. Imaginez que vous avez 100 produits différents, et chaque produit est vendu à 10 marchand qui fait 1000 produits au total. Si vous essayez de groupe de chaque produit correctement, mais l'algorithme classés comme les exemples ci-dessus. Alors, comment voulez-vous calculer votre algorithme de classification de taux de réussite.
pourquoi ne pas (correct)/(total)?

OriginalL'auteur unsym
-1

Taux d'Erreur de Classification(CER) est 1 - la Pureté (http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html)
```
ClusterPurity <- function(clusters, classes) {
    sum(apply(table(classes, clusters), 2, max)) /length(clusters)
}
```
Code de @jean-colby
Ou
```
CER <- function(clusters, classes) {
    1- sum(apply(table(classes, clusters), 2, max)) /length(clusters)
}
```
le clustering est pas la même chose que de la classification. la classification supervisée.

OriginalL'auteur Sibelius Seraphini

Vous devez vous connecter pour publier un commentaire.