Pourquoi la fonctionnalité de mise à l'échelle?

J'ai trouvé que la mise à l'échelle dans SVM (Support Vector Machine), des problèmes de vraiment améliorer ses performances...
J'ai lu cette explication:

"Le principal avantage de la mise à l'échelle pour éviter les attributs en plus de plages numériques dominant dans les petites plages numériques."

Malheureusement cela ne m'aide pas ... quelqu'un Peut-il me fournir une meilleure explication?
Je vous remercie à l'avance!

Vous parlez du journal-normalisation des données?
Peut-être que vous devriez poser cette question à stats.stackexchange.com - ce forum est pour les questions de programmation, vos questions sonne comme une théorique

InformationsquelleAutor Kevin | 2014-10-06

45

La vraie raison derrière échelle fonctionnalités dans SVM est le fait, que ce classificateur n'est pas transformation affine invariant. En d'autres termes, si vous multipliez une fonction par un 1000 que d'une solution donnée par la SVM sera complètement différente. Il a presque rien à voir avec le sous-tendent les techniques d'optimisation (même si elles sont concernées par ces échelles de problèmes, ils devraient toujours converger vers optimum global).

Prenons un exemple: vous avez homme et une femme, codée par leur sexe et de leur hauteur (deux éléments). Supposons un cas très simple avec ces données:

0-homme, 1 femme

1 150

1 160

1 170

0 180

0 190

0 200

Et laissez-nous faire quelque chose de stupide. Le Train pour prédire le sexe de la personne, de sorte que nous sommes en train d'apprendre f(x,y)=x (en ignorant deuxième paramètre).

Il est facile de voir, que pour ce type de données plus grande marge de classificateur sera "coupé" de l'avion à l'horizontale, quelque part autour de la hauteur "175", donc une fois que nous recevons des nouvelles de l'échantillon "0 178" (une femme de 178 cm de hauteur) nous obtenons le classement qu'elle est un homme.

Cependant, si nous avons l'échelle vers le bas tout à [0,1] on obtient qqch comme

0 0.0

0 0.2

0 0.4

1 0.6

1 0.8

1 1.0

et maintenant plus grande marge de classifier les "coupes" de l'avion presque à la verticale (comme prévu) et ainsi donné un nouvel exemple de "0 178", qui est également mis à l'échelle pour autour de "0 0.56", nous obtenons que c'est une femme (le bon!)

Donc, en général, - mise à l'échelle s'assure que tout simplement parce que certaines fonctionnalités sont grand elle ne mène pas à les utiliser comme un principal facteur prédictif.
- Un autre exemple intuitif: Supposons que l'on souhaite classer un groupe de personnes basée sur des attributs tels que la taille (mesurée en mètres) et le poids (mesuré en kilogrammes). La hauteur de l'attribut a une faible variabilité, allant de 1,5 m à 1,85 m, tandis que le poids de l'attribut peut varier de 50 kg à 250 kg. Si l'échelle d'attributs ne sont pas pris en compte, la mesure de la distance peut être dominé par des différences dans le poids d'une personne. Source: Introduction à l'Exploration de Données, Chapitre 5, Tan Pan-Ning
- Je ne comprends toujours pas pourquoi le réseau ne peut pas automatiquement l'échelle de l'fonctions. Ne sera pas de la formation, il suffit de régler le poids de l'échelle les données pour vous? Comme la hauteur et le poids exemple dans ces commentaires.. je pense que la formation à l'échelle de la faible variabilité des attributs avec un grand poids et de la grande variabilité des caractéristiques avec un poids plus faible. Pourquoi ne serait-ce pas arrivé?
- D'accord avec le post après le premier tableau, il me semble que si la clé doit être de 0-femme, 1 homme, et la première table doit être 0 150, 0 160, 0 170, 1 180, 1 190, 1 200.
InformationsquelleAutor lejlot
58

Fonction de mise à l'échelle est un général truc appliquée à des problèmes d'optimisation (et pas seulement SVM). Le soulignement algorithme pour résoudre le problème d'optimisation de la SVM est dégradé descendre. Andrew Ng a une bonne explication dans son coursera vidéos ici.

Je vais illustrer la base des idées ici (j'emprunte Andrew diapositives). Supposons que vous avez seulement deux paramètres et l'un des paramètres peut prendre relativement large gamme de valeurs. Ensuite le contour de la fonction de coût
peut regarder comme très grand et maigre ovales (voir l'ovale bleu ci-dessous). Vos dégradés (le chemin de gradient est dessiné en rouge) pourrait prendre un certain temps et aller d'avant en arrière pour trouver la solution optimale.

Au lieu de cela, si votre échelle de votre fonction, le contour de la fonction de coût peut ressembler à des cercles; puis le dégradé peut prendre un peu plus droit chemin et atteindre le point optimal de beaucoup plus rapide.
- Merci beaucoup greeness. Votre réponse est très claire, mais votre réponse à expliquer pourquoi la mise à l'échelle améliore la vitesse de calcul de temps, pas de précision que j'ai demandé, à mon humble avis. Merci!!!!
- Je crois que la raison ci-dessus est, dans sa réponse. Je ne suis pas exactloy sûr que: <<Vos dégradés (le chemin de gradient est dessiné en rouge) pourrait prendre un certain temps et aller d'avant en arrière pour trouver la solution optimale.>>
- Cette réponse n'est pas correcte, SVM n'est pas résolu avec SGD dans la plupart des implémentations, et la raison pour la fonctionnalité de mise à l'échelle est complètement différent.
- Je ne suis pas d'accord. Pour éviter les grandes valeurs de l'effet dominant est probablement le principal avantage. Cependant, l'auteur de libsvm également souligné que la fonctionnalité de mise à l'échelle a l'avantage de prévenir les problèmes numériques. voir la Section 2.2 csie.ntu.edu.tw/~cjlin/documents/guide/guide.pdf
- Aussi, je ne sais pas pourquoi vous pensez que la descente de gradient n'est pas utilisée pour résoudre des SVM dans la plupart des implémentations. Dans libsvm 's différentes versions, je vois coordonner la descente de gradient et aussi des sous-descente de gradient implémentations.
- Le raisonnement derrière une "convergence plus rapide" et une "voie directe" pour les optima locaux (plutôt, un point critique), ce qui suppose que les tailles de pas ne change pas! Cette hypothèse ne peut pas tenir. Par exemple, si la taille de pas devenir plus petite, avec fonction de mise à l'échelle, puis il va prendre des mesures plus (quoique faite sur une ligne droite) pour se rendre au point critique.
- Il signifie il accélère la descente de gradient en rendant nécessitent moins d'itérations pour arriver à une bonne solution.
InformationsquelleAutor greeness
2

Juste de la réflexion personnelle à partir d'un autre point de vue.

1. pourquoi la fonctionnalité de mise à l'échelle d'influence?

Il y a un mot dans l'application de l'algorithme d'apprentissage automatique, garbage in, garbage out". Le plus réel reflet de vos fonctions, plus la précision de votre algorithme permet d'obtenir. Qui s'applique aussi pour la façon dont les algorithmes d'apprentissage automatique traiter de la relation entre les fonctions. Différent du cerveau humain, lorsque les algorithmes d'apprentissage automatique ne les classer par exemple, toutes les fonctionnalités sont exprimés et calculé par le même système de coordonnées, ce qui dans un certain sens, établir hypothèse a priori entre les fonctionnalités(pas vraiment le reflet de données elle-même). Et aussi de la nature de la plupart des algorithmes est de trouver le plus approprié en pourcentage du poids entre les fonctions à plus fort les données. Ainsi, lorsque ces algorithmes' entrée est non mis à l'échelle de fonctionnalités, de données à grande échelle a plus d'influence sur le poids. En fait ce n'est pas le reflet de données iteself.

2. pourquoi généralement fonction de mise à l'échelle d'améliorer la précision?

La pratique commune dans non supervisée des algorithmes d'apprentissage automatique sur les hyper-paramètres(ou hyper-hyper-paramètres) sélection(par exemple, hiérarchique processus de Dirichlet, hLDA), c'est que vous ne devez pas ajouter d'personnelles et subjectives hypothèse sur les données. La meilleure façon est juste de supposer qu'ils ont l'égalité de probabilité d'apparaître. Je pense qu'elle s'applique ici aussi. La fonction de mise à l'échelle essaie juste de faire l'hypothèse que toutes les fonctionnalités a l'égalité possibilité d'influer sur le poids, qui reflète vraiment l'information/connaissance vous savez sur les données. Souvent aussi engendrer une meilleure précision.

BTW, sur la transformation affine invariant et de converger plus vite, il n'y a pas d'intérêt lien ici sur stats.stackexchange.com.

InformationsquelleAutor weiheng
2

Nous pouvons accélérer la descente de gradient en ayant chacun de nos valeurs d'entrée dans environ la même gamme. C'est parce que θ va descendre rapidement sur les petites plages et lentement sur de grandes plages, et donc va osciller de façon inefficace vers le bas à l'optimum lorsque les variables sont très inégaux.
C'est à partir de Andrews NG coursera cours.

Donc, c'est fait pour faire quelque chose comme la normalisation des données.
Parfois, les chercheurs veulent savoir si une observation est commun ou d'exception. exprimer un score en termes de nombre d'écarts-types, il est supprimé de la moyenne. Ce numéro est ce qu'on appelle un z-score. Si l'on recode partitions originales en z-scores, nous disons que nous normaliser une variable.

InformationsquelleAutor iali87
1

De ce que j'ai appris de la Andrew Ng cours sur coursera, c'est que la fonctionnalité de mise à l'échelle permet de réaliser le dégradé décent plus rapidement,si les données sont plus dispersées,ce qui signifie que si il a un niveau standard de déviation,il sera relativement peu plus de temps pour calculer le gradient décent par rapport à la situation quand nous avons échelle de nos données via la fonctionnalité de mise à l'échelle

InformationsquelleAutor Dude
1

L'Idée de mise à l'échelle est de supprimer exess calcule sur une variable particulière, par une uniformisation de toutes les variables sur une même échelle avec ce que nous avons tendance à calculer la pente beaucoup plus facile ( y = mx + c) où nous sommes en normalisant le paramètre M de converger le plus rapidement possible.

InformationsquelleAutor Sree11
1

Oui si la normalisation n'est pas là, le contour sera maigre donc avec la normalisation:
1. De valeurs au sein de la gamme
2. Accélère le calcul de thêta car le nombre de calculs nécessitent sera moins
InformationsquelleAutor Nitish Kumar

Vous devez vous connecter pour publier un commentaire.