Comment mettre en œuvre weight decay dans tensorflow comme dans Caffe

Dans Caffe, nous avons une decay_ratio qui est généralement défini comme 0.0005. Alors tous les moyens paramètres, par exemple, la matrice W dans FC6 sera pourri par:
W = W * (1 - 0.0005)
après, nous avons appliqué le gradient.

Je passe par de nombreux tutoriel tensorflow codes, mais ne voient pas comment les gens de mettre en œuvre ce poids de décroissance pour éviter les problèmes numériques (très grand en valeur absolue)

J'ai mes expériences, j'ai souvent confrontés à des problèmes numériques aften 100 itérations au cours de la formation.

J'ai aussi passer par des questions liées à stackoverflow, par exemple,
Comment définir le poids du coût de la force dans TensorFlow?
Cependant, la solution semble un peu différent mis en œuvre Caffe.

Quelqu'un a les mêmes préoccupations? Merci.

OriginalL'auteur user2868512 | 2016-08-10