Pourquoi ne sigmoïde fonctions de travail dans les réseaux de Neurones?

Je viens de commencer la programmation pour les réseaux de Neurones. Je suis actuellement en train de travailler sur la compréhension de la façon dont un Backpropogation (BP), réseau neuronal œuvres. Tandis que l'algorithme pour la formation en BP filets est assez simple, j'ai été incapable de trouver n'importe quel texte sur les raisons de l'algorithme fonctionne. Plus précisément, je suis à la recherche pour certains le raisonnement mathématique pour justifier l'utilisation de l'sigmoïde fonctions dans les réseaux de neurones, et ce qui les rend imiter presque n'importe quelle distribution de données jeté sur eux.

Merci!