Quelqu'un peut me dire pourquoi nous avons toujours utiliser la distribution gaussienne dans l'apprentissage de la Machine?
Par exemple, nous avons toujours supposé que les données ou le signal d'erreur est une distribution Gaussienne? pourquoi?
Il vous est recommandé de poser la question ici, stats.stackexchange.com
Pas toujours, mais en général, en raison de théorème de la limite centrale
Pas toujours, mais en général, en raison de théorème de la limite centrale
OriginalL'auteur laotao | 2012-09-27
Vous devez vous connecter pour publier un commentaire.
La réponse que vous obtiendrez à partir mathématiquement l'esprit des gens c'est "à cause du théorème de la limite centrale". Cela exprime l'idée que, lorsque vous prenez un tas de nombres aléatoires à partir de presque n'importe quelle distribution* et ajoutez-les ensemble, vous obtiendrez quelque chose de distribution à peu près normale. Les numéros plus vous ajoutez, plus distribuées normalement il obtient.
Je peux le démontrer dans Matlab/Octave. Si je générer 1000 nombres aléatoires entre 1 et 10 et de tracer un histogramme, j'obtiens quelque chose comme cela
Si au lieu de générer un seul nombre aléatoire, je générer 12 d'entre eux et de les ajouter ensemble, et de faire 1000 fois et tracer un histogramme, j'obtiens quelque chose comme ceci:
J'ai tracé une distribution normale avec la même moyenne et de la variance sur le dessus, de sorte que vous pouvez obtenir une idée de comment fermer le match. Vous pouvez voir le code que j'ai utilisé pour générer ces parcelles à ce gist.
Dans une machine typique de l'apprentissage de problème, vous aurez des erreurs à partir de nombreuses sources différentes (par exemple, erreur de mesure, erreur de saisie, erreur de classification, de corruption de données...) et ce n'est pas complètement déraisonnable de penser que l'effet combiné de toutes ces erreurs est à peu près normale (même si bien sûr, vous devriez toujours vérifier!)
Plus pragmatique des réponses à la question:
Car il rend le calcul plus simple. La fonction de densité de probabilité de la distribution normale est une exponentielle d'une équation du second degré. En prenant le logarithme (comme vous le faites parce que vous voulez maximiser la log-vraisemblance) vous donne une équation du second degré. La différenciation des ce (pour trouver le maximum) vous donne un ensemble d'équations linéaires, qui sont faciles à résoudre analytiquement.
C'est simple - l'ensemble de la distribution est décrite par deux nombres, la moyenne et la variance.
Il est familier à la plupart des gens qui vont lire votre code/document/rapport.
C'est généralement un bon point de départ. Si vous trouvez que vos hypothèses distributionnelles sont en vous donnant de mauvaises performances, alors peut-être vous pouvez essayer une autre distribution. Mais vous devriez probablement chercher d'autres moyens d'améliorer la performance du modèle en premier.
*Point technique - il faut avoir fini la variance.
OriginalL'auteur Chris Taylor
Des distributions gaussiennes sont les plus "naturel" des distributions. Ils montrent partout. Voici une liste des propriétés qui me font penser que les Gaussiennes sont la plupart des distributions naturelles:
Ce post est permuté à http://artent.net/blog/2012/09/27/why-are-gaussian-distributions-great/
OriginalL'auteur Hans Scundal
Le signal d'erreur si c'est souvent une somme de plusieurs erreurs. Par exemple, dans le CCD de la caméra, vous pourriez avoir le bruit de photon, la transmission du bruit, bruit de numérisation (et peut-être plus) qui sont pour la plupart indépendants, de sorte que l'erreur sera souvent distribuées normalement en raison de la théorème de la limite centrale.
Aussi, la modélisation de l'erreur comme une distribution normale souvent fait des calculs très simples.
OriginalL'auteur Niki
J'ai eu la même question "qu'est-ce est l'avantage de faire une Gaussienne de transformation sur les prédicteurs de la cible?" En effet, l'accent circonflexe paquet a une étape de prétraitement qui permet cette transformation.
Voici ma compréhension -
1) Généralement, la distribution des données dans la Nature suit une distribution Normale ( quelques exemples comme l'âge, le revenu, la taille, le poids, etc., ) . La meilleure approximation lorsque nous ne sommes pas conscients de la distribution sous-jacente modèle.
2) le Plus souvent, l'objectif fixé en ML/AI est de s'assurer que les données linéairement séparables, même si cela signifie de projeter les données dans l'espace de plus grande dimension afin de trouver un côté "hyperplane" (par exemple SVM noyaux, réseau Neuronal couches, Softmax, etc.). La raison de cet être "Linéaire limites toujours aider à réduire la variance et est la plus simple, naturelle et interpréter-mesure" en plus de la réduction de mathématiques /calcul de complexité. Et, lorsque nous nous efforçons pour la séparabilité linéaire, il est toujours bon de réduire l'effet des valeurs aberrantes, en influençant les points et les points de levier. Pourquoi? Parce que le hyperplane est très sensible à la influençant les points et les points de levier (aka valeurs aberrantes) - Pour undertstand ce - Permet de passer à un espace 2D où nous avons un prédicteur (X) et une cible(y) et supposons qu'il n'y existe une bonne corrélation positive entre X et y. Compte tenu de cela, si X est normalement distribués et y est également distribuées normalement, vous êtes plus susceptible de tenir une ligne droite qui a de nombreux points centré au milieu de la ligne plutôt que les points d'extrémité (aka les valeurs aberrantes, l'effet de levier /influence des points). De sorte que le prédit la ligne de régression seront plus susceptibles de souffrir de peu de variance lorsque la prédiction sur l'invisible données.
Extrapolant la compréhension d'un n-espace de dimension et de montage d'un hyperplane pour rendre les choses linéairement séparable n'en fait vraiment de sens, car il permet de réduire la variance.
OriginalL'auteur Ravindra
Les maths souvent sortirait pas. 🙂
La distribution normale est très commun. Voir i nik e réponse.
Même des distributions non normales peuvent souvent être regardé comme normal
de distribution avec un grand écart. Oui, c'est un sale hack.
Le premier point peut paraître drôle, mais j'ai fait quelques recherches pour des problèmes où nous avons eu des distributions non normales et les mathématiques obtenir horriblement compliquée. Dans la pratique, souvent ordinateur simluations sont menées afin de "prouver les théorèmes".
OriginalL'auteur Ali
Pourquoi il est beaucoup utilisé dans l'apprentissage de la machine est une excellente question, car les justifications habituelles de son utilisation en dehors des mathématiques sont souvent faux.
Vous verrez des gens de donner l'explication standard de la distribution normale par le "théorème de la limite centrale".
Cependant, il y a le problème avec ça.
De ce que vous trouverez beaucoup de choses dans le monde réel est une des conditions de ce théorème sont souvent pas respectées ... même pas de près. En dépit de ces choses APPARAISSANT à être distribuées normalement!
Donc je ne parle pas SEULEMENT au sujet des choses qui n'apparaissent pas normalement distribuées, mais aussi sur ceux qui le font.
Il y a une longue histoire à ce sujet dans les statistiques et les sciences empiriques.
Encore, il y a aussi beaucoup d'inertie intellectuelle et de la désinformation qui a persisté pendant des décennies sur le théorème de la limite centrale explication. Je suppose que peut-être une partie de la réponse.
Même si les distributions normales peut-être pas aussi normal qu'on le pensait,
il doit y avoir une base naturelle à la fois les choses sont distribués de cette façon.
Le meilleur, mais pas tout à fait les raisons sont d'entropie maximale des explications. Le problème ici est qu'il existe différentes mesures de l'entropie.
De toute façon, l'apprentissage de la machine peut juste avoir développé avec un certain état d'esprit ainsi que la confirmation par le biais de données qui correspond juste Gaussiennes.
OriginalL'auteur mszlazak
J'ai lu récemment un intéressant point de vue sur cette question dans le livre de David Mackay "la Théorie de l'Information, de l'Inférence, et les Algorithmes d'Apprentissage", Chapitre 28, que je vais résumer brièvement ici.
De dire que nous voulons approximative de la probabilité a posteriori d'un paramètre donné quelques données P(w|D). Une approximation raisonnable est la série de Taylor de l'expansion autour de certains points d'intérêt. Un bon candidat pour ce point, c'est l'estimation du Maximum de Vraisemblance, w*. À l'aide de l'ordre 2 de la série de Taylor de l'expansion de la journal-probabilité de P à w*:
Depuis le ML est un maxima, ∇log(P(w*|D))=0. La définition de Γ=(-∇∇log(P(w*|D))), nous avons:
Prendre l'exposant de l'additif termes:
où cte=P(w*|D). Donc,
où w* est le Maximum de Vraisemblance de la distribution et de la Γ est le Hessien de son log-probabilité à la w*.
OriginalL'auteur idnavid