un “gel” de certaines variables/étendues dans tensorflow: stop_gradient vs passer des variables à minimiser

Je suis en train de mettre en œuvre Contradictoire NN, ce qui nécessite de "geler" l'une ou l'autre partie du graphique des cours de formation en alternance minibatches. I. e. il y a deux sous-réseaux: G et D.

G( Z ) ->  Xz
D( X ) ->  Y

où la perte de la fonction de G dépend D[G(Z)], D[X].

J'ai d'abord besoin de former des paramètres D avec tous les G paramètres fixes, puis paramètres dans G avec les paramètres D fixe. La perte de fonction dans le premier cas sera négatif de la perte de fonction dans le second cas, et la mise à jour devra appliquer les paramètres de savoir si la première ou de la deuxième sous-réseau.

J'ai vu que tensorflow a tf.stop_gradient fonction. Pour les fins de la formation de la D (en aval) de sous-réseau que je peux utiliser cette fonction pour bloquer le flux de gradient de

 Z -> [ G ] -> tf.stop_gradient(Xz) -> [ D ] -> Y

La tf.stop_gradient est très succinctement annoté avec aucun exemple de ligne (et l'exemple seq2seq.py est trop long et pas facile à lire), mais regarde comme il doit être appelée lors de la création graphique. N'implique que si je veux bloquer/débloquer les flux de gradient en alternant les lots, j'ai besoin de re-créer et re-initialiser le modèle des graphes?

Aussi, il semble que on ne peut pas bloquer le gradient qui coule à travers le G (en amont) le réseau par le biais de tf.stop_gradient, droit?

Comme une alternative, j'ai vu que l'on peut passer à la liste des variables à l'optimiseur d'appel comme opt_op = opt.minimize(cost, <list of variables>), ce qui serait une solution de facilité si l'on peut obtenir toutes les variables dans la portée de chaque sous-réseau. Peut-on obtenir un <list of variables> pour un tf.portée?

InformationsquelleAutor Dima Lituiev | 2016-02-09

python tensorflow

64

La façon la plus simple pour atteindre cet objectif, comme vous le mentionnez dans votre question, c'est de créer deux optimiseur opérations à l'aide de différents appels à opt.minimize(cost, ...). Par défaut, l'optimiseur utilise toutes les variables de tf.trainable_variables(). Si vous voulez filtrer les variables d'une portée particulière, vous pouvez utiliser l'option scope argument tf.get_collection() comme suit:
```
optimizer = tf.train.AdagradOptimzer(0.01)

first_train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES,
                                     "scope/prefix/for/first/vars")
first_train_op = optimizer.minimize(cost, var_list=first_train_vars)

second_train_vars = tf.get_collection(tf.GraphKeys.TRAINABLE_VARIABLES,
                                      "scope/prefix/for/second/vars")                     
second_train_op = optimizer.minimize(cost, var_list=second_train_vars)
```
- j'utilise cette recette pour le train, et quand je inspecter graphique dans tensorboard, je vois mon graphe d'être doublé, par exemple, je reçois gradients et gradients_1. Est-il les résultats escomptés?
InformationsquelleAutor mrry
21

@mrry réponse est complètement à droite et peut-être plus générale que ce que je suis sur le point de suggérer. Mais je pense que d'une façon plus simple d'y parvenir est de passer le python référence directement à var_list:
```
W = tf.Variable(...)
C = tf.Variable(...)
Y_est = tf.matmul(W,C)
loss = tf.reduce_sum((data-Y_est)**2)
optimizer = tf.train.AdamOptimizer(0.001)

# You can pass the python object directly
train_W = optimizer.minimize(loss, var_list=[W])
train_C = optimizer.minimize(loss, var_list=[C])
```
J'ai un exemple ici: https://gist.github.com/ahwillia/8cedc710352eb919b684d8848bc2df3a
- merci! c'est une façon plus directe de la solution solution si vous êtes le maintien de votre propre liste de variables dans certains séparer la structure de données (si vous n'avez pas à l'inverse leur recherche de noms (par mrry solution)
InformationsquelleAutor Alex Williams
16

Une autre option que vous pourriez envisager est que vous pouvez définir éducables=False sur une variable. Ce qui signifie qu'il ne sera pas modifié par la formation.
```
tf.Variable(my_weights, trainable=False)
```
- C'est bon si je ne veux pas de ça pour être aptes à la formation à tous. Cependant, je veux qu'il soit facile à former dans chaque n_th_ époque.
InformationsquelleAutor Daniel Slater
1

Je ne sais pas si ma démarche a bas côtés, mais j'ai résolu ce problème pour moi avec cette construction:
```
do_gradient = <Tensor that evaluates to 0 or 1>
no_gradient = 1 - do_gradient
wrapped_op = do_gradient * original + no_gradient * tf.stop_gradient(original)
```
Donc si do_gradient = 1, les valeurs et les gradients de flux de à travers, mais si do_gradient = 0, les valeurs ne le débit à travers le stop_gradient op, qui sera le gradients de couler en arrière.

Pour mon scénario, en accrochant do_gradient jusqu'à un indice d'une random_shuffle tenseur de me laisser au hasard pour former les différentes pièces de mon réseau.
- Cette approche résout un problème différent que ce qui était demandé. Si vous arrêtez le gradient, qu'Aucune des variables d'avant cette opération seront formés. C'est utile dans certains cas. Sauf si c'est ce que vous voulez, vous êtes mieux d'utiliser l'une des autres réponses qu'ils n'ont pas d'autres effets secondaires.
InformationsquelleAutor user3307732

Vous devez vous connecter pour publier un commentaire.