Pourquoi utiliser softmax, par opposition à la norme de normalisation?

Dans la couche de sortie du réseau de neurones, il est typique de l'utilisation de la fonction softmax de se rapprocher de la distribution de probabilité:

Pourquoi utiliser softmax, par opposition à la norme de normalisation?

C'est onéreux en raison de la exposants. Pourquoi ne pas tout simplement effectuer une transformée en Z de sorte que toutes les sorties sont positifs, puis normaliser simplement en divisant toutes les sorties par la somme de toutes les sorties?

  • La fonction n'est pas onéreux en raison des exposants, mais parce que vous avez besoin de calculer chaque qj. L'exponentiation est bon marché par rapport au total de la quantité de calcul nécessaire.
InformationsquelleAutor Tom | 2013-06-19