Pourquoi ne sigmoïde fonctions de travail dans les réseaux de Neurones?

Je viens de commencer la programmation pour les réseaux de Neurones. Je suis actuellement en train de travailler sur la compréhension de la façon dont un Backpropogation (BP), réseau neuronal œuvres. Tandis que l'algorithme pour la formation en BP filets est assez simple, j'ai été incapable de trouver n'importe quel texte sur les raisons de l'algorithme fonctionne. Plus précisément, je suis à la recherche pour certains le raisonnement mathématique pour justifier l'utilisation de l'sigmoïde fonctions dans les réseaux de neurones, et ce qui les rend imiter presque n'importe quelle distribution de données jeté sur eux.

Merci!

InformationsquelleAutor Anshul Porwal | 2012-07-26

backpropagation neural-network

25

La fonction sigmoïde introduit une non-linéarité dans le réseau. Sans une non-linéaire de la fonction d'activation, le net ne peut apprendre les fonctions qui sont des combinaisons linéaires de ses entrées. Le résultat est appelé universal approximation theorem ou Cybenko theorem, après le monsieur qui l'a prouvé en 1989. Wikipédia est un bon endroit pour commencer, et il a un lien vers l'article original (la preuve en est quelque peu impliqués tout de même). La raison pourquoi vous devez utiliser une sigmoïde, par opposition à quelque chose d'autre est qu'elle est continue et dérivable, sa dérivée est très rapide à calculer (par opposition à la dérivée de la fonction tanh, qui a des propriétés similaires) et a une portée limitée (de 0 à 1, exclusif)
- Belle réponse, mais l'hypothèse "en continu (et donc dérivable)" ne pas se tenir debout. Exemple: abs(x) est continue en zéro mais pas dérivable.
- Vrai, édité ma réponse
- L'article de Wikipedia le dit, mais: "Kurt Hornik a montré en 1991 qu'il n'est pas le choix spécifique de l'activation de la fonction, mais plutôt le multicouche anticipation de l'architecture elle-même qui donne de réseaux de neurones le potentiel d'être universel approximators. Les unités de sortie sont supposées être linéaire." En fait, il ne semble rien dire au sujet de l'obligation des non-linéaire de la fonction d'activation. Mais la déclaration formelle du théorème de ne dire "non constante, borné, et de l'augmentation monotone fonction continue" - peut-être le délimitée et monotone partie implique la non-linéarité?
- linéaire de la fonction d'activation tourne tout le réseau en linéaire classificateur (combinaison linéaire de la fonction linéaire est toujours linéaire), ce qui rend les unités cachées inutile.
- Il est assez intéressant bien que le domaine de l'Apprentissage en Profondeur s'est transformé en Redresseur de Parts, qui est essentiellement une fonction linéaire.
- "Sans elle, le net ne peut apprendre les fonctions qui sont des combinaisons linéaires de ses entrées." Que fait le "il" veut dire?", la fonction sigmoïde", "non-linéarité" ou simplement "activation de la fonction"?
InformationsquelleAutor mbatchkarov

Vous devez vous connecter pour publier un commentaire.