Pourquoi utiliser tanh pour la fonction d'activation de MLP?

Im personnellement étudier les théories de réseau de neurones et ai quelques questions.

Dans de nombreux livres et références, pour la fonction d'activation de couche cachée, hyper-tangente fonctions ont été utilisées.

Livres est venu avec vraiment simple raison que des combinaisons linéaires de tanh fonctions peuvent décrire presque tous de la forme des fonctions d'erreur donné.

Mais, il est venu une question.

  1. Est-ce une raison réelle pourquoi la fonction tanh est-il utilisé?
  2. Si alors, est-ce la seule raison pourquoi la fonction tanh est-il utilisé?
  3. si alors, est fonction tanh la seule fonction qui peut le faire?
  4. si non, quelle est la vraie raison?..

J'ai en stock ici continue à penser... merci de m'aider à sortir de ce mental(?...) piège!

source d'informationauteur forsythia