Comment les œuvres dans tensorflow

Dans tensorflow il semble que toute les algorithme est réalisée par un seul exécutant d'un optimiseur sur une certaine fonction de coût, qui est la sortie de certains MLP ou de CNN.

Je ne suis pas entièrement comprendre comment tensorflow sait par le coût qu'il s'agit bien d'une sortie d'un certain NN? Une fonction de coût peut être définie pour n'importe quel modèle. Comment dois-je "raconter" qu'une certaine fonction de coût provient d'une NN?

Vous devriez lire à propos de comment DL bibliothèques de travaux et plus précisément graphe de calcul. tldr: la fonction de coût est un noeud d'un graphe et les bords (poids) sont en provenance du réseau de la dernière couche.

InformationsquelleAutor Ezer Miller | 2017-05-26

tensorflow

23

Question

Comment dois-je "dis" tf qu'une certaine fonction de coût provient d'une NN?

(court) Réponse

Cela se fait simplement en configurant votre optimizer afin de minimiser (ou maximiser) un tenseur. Par exemple, si j'ai une perte de fonction de la façon
```
loss = tf.reduce_sum( tf.square( y0 - y_out ) )
```
où y0 est la la vérité terrain (ou de sortie désirée) et y_out est le résultat calculé, puis j'ai pu minimiser la perte, par la définition de ma formation en fonction de la façon
```
train = tf.train.GradientDescentOptimizer(1.0).minimize(loss)
```
Cela dit Tensorflow que lorsque train est calculé, c'est d'appliquer la descente de gradient sur la perte de la minimiser, et la perte est calculée à l'aide de y0 et y_out, et ainsi de descente de gradient va aussi affecter les personnes (si elles sont éducables variables), et ainsi de suite.

La variable y0, y_out, perte, et train ne sont pas standard de python variables, mais plutôt la description d'un graphe. Tensorflow utilise les informations à propos du graphe de la dérouler lors de l'application de la descente de gradient.

Spécifiquement sur la façon dont il le fait est au-delà de la portée de cette réponse. Ici et ici sont deux bons points de départ pour plus d'informations sur plus de détails.

Exemple De Code

Examinons un exemple de code. D'abord le code.
```
### imports
import tensorflow as tf
### constant data
x  = [[0.,0.],[1.,1.],[1.,0.],[0.,1.]]
y_ = [[0.],[0.],[1.],[1.]]
### induction
# 1x2 input -> 2x3 hidden sigmoid -> 3x1 sigmoid output
# Layer 0 = the x2 inputs
x0 = tf.constant( x  , dtype=tf.float32 )
y0 = tf.constant( y_ , dtype=tf.float32 )
# Layer 1 = the 2x3 hidden sigmoid
m1 = tf.Variable( tf.random_uniform( [2,3] , minval=0.1 , maxval=0.9 , dtype=tf.float32  ))
b1 = tf.Variable( tf.random_uniform( [3]   , minval=0.1 , maxval=0.9 , dtype=tf.float32  ))
h1 = tf.sigmoid( tf.matmul( x0,m1 ) + b1 )
# Layer 2 = the 3x1 sigmoid output
m2 = tf.Variable( tf.random_uniform( [3,1] , minval=0.1 , maxval=0.9 , dtype=tf.float32  ))
b2 = tf.Variable( tf.random_uniform( [1]   , minval=0.1 , maxval=0.9 , dtype=tf.float32  ))
y_out = tf.sigmoid( tf.matmul( h1,m2 ) + b2 )
### loss
# loss : sum of the squares of y0 - y_out
loss = tf.reduce_sum( tf.square( y0 - y_out ) )
# training step : gradient decent (1.0) to minimize loss
train = tf.train.GradientDescentOptimizer(1.0).minimize(loss)
### training
# run 500 times using all the X and Y
# print out the loss and any other interesting info
with tf.Session() as sess:
sess.run( tf.global_variables_initializer() )
for step in range(500) :
sess.run(train)
results = sess.run([m1,b1,m2,b2,y_out,loss])
labels  = "m1,b1,m2,b2,y_out,loss".split(",")
for label,result in zip(*(labels,results)) :
print ""
print label
print result
print ""
```
Nous allons aller à travers elle, mais dans l'ordre inverse, en commençant par
```
sess.run(train)
```
Cela dit tensorflow de regarder le graphique noeud défini par train et de le calculer. Train est défini comme
```
train = tf.train.GradientDescentOptimizer(1.0).minimize(loss)
```
Pour calculer cette tensorflow doit calculer la la différentiation automatique pour perte, ce qui signifie marcher le graphique. perte est défini comme
```
loss = tf.reduce_sum( tf.square( y0 - y_out ) )
```
Qui est vraiment tensorflow l'application de la différentiation automatique dérouler de première tf.reduce_sum, puis tf.carré, puis y0 - y_out, ce qui conduit à avoir à marcher sur le graphique pour les deux y0 et y_out.
```
y0 = tf.constant( y_ , dtype=tf.float32 )
```
y0 est une constante, et ne sera pas mis à jour.
```
y_out = tf.sigmoid( tf.matmul( h1,m2 ) + b2 )
```
y_out sera traitée semblable à la perte, d'abord tf.sigmoïde seront traitées, etc...

Dans l'ensemble, chaque opération ( telle que la tf.sigmoïde, tf.carré ) ne définit pas seulement l'opération ( appliquer sigmoïde ou carrée), mais aussi les informations nécessaires pour la différentiation automatique. Ceci est différent du standard de python mathématiques comme
```
x = 7 + 9
```
L'équation ci-dessus code pour rien, sauf la façon de mettre à jour x, où que
```
z = y0 - y_out
```
code pour le graphique de la soustraction y_out de y0 et stocke l'opération et assez à faire la différentiation automatique dans z
- C'était très serviable ! Merci beaucoup. Je ne pouvais pas trouver ce genre d'information dans d'autres sites web. Ils ont juste demonstarte codes avec des instructions sans expliquer ce qui se passe derrière elle. Pouvez-vous me recommander sur le site web avec plus des explications plus poussées sur TF? Un endroit qui explique aussi la rationalité derrière cette unique progaraming paradigme.
- Malheureusement pas. Il n'y a pas tout ce que j'ai lu. Comment j'ai obtenu une meilleure compréhension, c'est que j'ai fait un petit cours d'étude pour moi c'. Voici le lien : github.com/panchishin/learn-to-tensorflow et j'ai fait ce que j'ai écrit dans le README. Il a fallu environ une heure par jour pendant plusieurs semaines pour arriver jusqu'à Niveau 4 - Solo sur tous les défis sans tricher. Une fois que j'ai frappé Niveau 4 - Solo, Tensorflow senti très naturelle, même si je n'ai travaillé par le biais de petits exemples.
- :+100: Très bien, merci!
InformationsquelleAutor Panchishin
0

La les a été créé par Rumelhart et Hinton et al. et publiée sur la Nature en 1986.

Comme indiqué dans la section 6.5: Back-Propagation et d'Autres DifferentiationAlgorithms de la deeplearning livre il y a deux types d'approches pour la rétro-propagation des gradients à travers de calcul graphiques: symbole-à-numéro de la différenciation et de symbole de symbole de produits dérivés. La plus pertinente Tensorflow comme indiqué dans ce document: Un Tour de TensorFlow est la plus tard ce qui peut être illustré à l'aide de ce diagramme:

Source: la Section II de la Partie D du Un Tour de TensorFlow

Dans la partie gauche de la Fig. 7 ci-dessus, w est le poids(ou Variables) dans Tensorflow et x et y sont deux intermédiaire en opérations(ou nœuds, w, x, y et z sont toutes les opérations) pour obtenir le scalaire perte z.

Tensorflow va ajouter un nœud à chaque nœud(si nous avons l'impression que les noms de variables en un certain point de contrôle, nous pouvons voir quelques variables supplémentaires pour de tels nœuds et ils seront éliminés si nous geler le modèle à un protocole de fichier de mémoire tampon pour le déploiement) dans le graphique pour le dégradé qui peut être vu dans le diagramme (b) sur le côté droit: dz/dy, dy/dx, dx/dw.

Au cours de la traversée de l'arrière de la propagation à chaque nœud, on multiplie son gradient avec celle de la précédente et, enfin, pour obtenir une symbolique de la poignée à l'ensemble de la cible dérivés dz/dw = dz/dy * dy/dx * dx/dw, qui s'applique exactement de la chaîne de la règle. Une fois le dégradé est travaillé w peut se mettre à jour avec un taux d'apprentissage.

Pour de plus amples informations, veuillez lire ce document: TensorFlow:
Apprentissage automatique à grande Échelle sur les Systèmes Distribués Hétérogènes

InformationsquelleAutor Lerner Zhang

Vous devez vous connecter pour publier un commentaire.

Question

(court) Réponse

Exemple De Code