TensorFlow - l'introduction de deux L2 de régularisation et d'abandon dans le réseau. Est-il un sens?

Je suis en train de jouer avec ANN qui est une partie de Udactity DeepLearning cours.

J'ai réussi construit et réseau de trains de banlieue et introduit la régularisation L2 sur tous les poids et les biais. Maintenant je suis d'essayer d'abandon pour la couche cachée afin d'améliorer la généralisation. Je me demande, est-il un sens à la fois d'introduire la régularisation L2 dans la couche cachée et de l'abandon sur la même couche? Si oui, comment le faire correctement?

Cours d'abandon nous avons littéralement éteindre la moitié des activations de la couche cachée et le double de la quantité délivrée par le repos des neurones. Lors de l'utilisation de la L2, nous calculons la norme L2 sur tous cachés poids. Mais je ne suis pas sûr de la façon de calculer L2 dans le cas où nous utilisons des abandons. Nous éteindre certaines activations, ne devrait-on pas supprimer les poids qui sont "non utilisé" maintenant à partir de la L2 calcul? Toutes les références à ce sujet sera utile, je n'ai pas trouvé d'info.

Juste au cas où vous êtes intéressé, mon code pour ANN avec régularisation L2 est ci-dessous:

#for NeuralNetwork model code is below
#We will use SGD for training to save our time. Code is from Assignment 2
#beta is the new parameter - controls level of regularization. Default is 0.01
#but feel free to play with it
#notice, we introduce L2 for both biases and weights of all layers
beta = 0.01
#building tensorflow graph
graph = tf.Graph()
with graph.as_default():
# Input data. For the training data, we use a placeholder that will be fed
# at run time with a training minibatch.
tf_train_dataset = tf.placeholder(tf.float32,
shape=(batch_size, image_size * image_size))
tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels))
tf_valid_dataset = tf.constant(valid_dataset)
tf_test_dataset = tf.constant(test_dataset)
#now let's build our new hidden layer
#that's how many hidden neurons we want
num_hidden_neurons = 1024
#its weights
hidden_weights = tf.Variable(
tf.truncated_normal([image_size * image_size, num_hidden_neurons]))
hidden_biases = tf.Variable(tf.zeros([num_hidden_neurons]))
#now the layer itself. It multiplies data by weights, adds biases
#and takes ReLU over result
hidden_layer = tf.nn.relu(tf.matmul(tf_train_dataset, hidden_weights) + hidden_biases)
#time to go for output linear layer
#out weights connect hidden neurons to output labels
#biases are added to output labels  
out_weights = tf.Variable(
tf.truncated_normal([num_hidden_neurons, num_labels]))  
out_biases = tf.Variable(tf.zeros([num_labels]))  
#compute output  
out_layer = tf.matmul(hidden_layer,out_weights) + out_biases
#our real output is a softmax of prior result
#and we also compute its cross-entropy to get our loss
#Notice - we introduce our L2 here
loss = (tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
out_layer, tf_train_labels) +
beta*tf.nn.l2_loss(hidden_weights) +
beta*tf.nn.l2_loss(hidden_biases) +
beta*tf.nn.l2_loss(out_weights) +
beta*tf.nn.l2_loss(out_biases)))
#now we just minimize this loss to actually train the network
optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss)
#nice, now let's calculate the predictions on each dataset for evaluating the
#performance so far
# Predictions for the training, validation, and test data.
train_prediction = tf.nn.softmax(out_layer)
valid_relu = tf.nn.relu(  tf.matmul(tf_valid_dataset, hidden_weights) + hidden_biases)
valid_prediction = tf.nn.softmax( tf.matmul(valid_relu, out_weights) + out_biases) 
test_relu = tf.nn.relu( tf.matmul( tf_test_dataset, hidden_weights) + hidden_biases)
test_prediction = tf.nn.softmax(tf.matmul(test_relu, out_weights) + out_biases)
#now is the actual training on the ANN we built
#we will run it for some number of steps and evaluate the progress after 
#every 500 steps
#number of steps we will train our ANN
num_steps = 3001
#actual training
with tf.Session(graph=graph) as session:
tf.initialize_all_variables().run()
print("Initialized")
for step in range(num_steps):
# Pick an offset within the training data, which has been randomized.
# Note: we could use better randomization across epochs.
offset = (step * batch_size) % (train_labels.shape[0] - batch_size)
# Generate a minibatch.
batch_data = train_dataset[offset:(offset + batch_size), :]
batch_labels = train_labels[offset:(offset + batch_size), :]
# Prepare a dictionary telling the session where to feed the minibatch.
# The key of the dictionary is the placeholder node of the graph to be fed,
# and the value is the numpy array to feed to it.
feed_dict = {tf_train_dataset : batch_data, tf_train_labels : batch_labels}
_, l, predictions = session.run(
[optimizer, loss, train_prediction], feed_dict=feed_dict)
if (step % 500 == 0):
print("Minibatch loss at step %d: %f" % (step, l))
print("Minibatch accuracy: %.1f%%" % accuracy(predictions, batch_labels))
print("Validation accuracy: %.1f%%" % accuracy(
valid_prediction.eval(), valid_labels))
print("Test accuracy: %.1f%%" % accuracy(test_prediction.eval(), test_labels))

Pourquoi êtes-vous régulariser les préjugés?

InformationsquelleAutor Maksim Khaitovich | 2016-07-10

Ok, après quelques autres efforts, j'ai réussi à le résoudre et introduire L2 et d'abandon dans mon réseau, le code est ci-dessous. J'ai eu une légère amélioration sur le même réseau sans le décrochage scolaire (avec L2 en place). Je ne sais pas si cela vaut vraiment la peine l'effort d'introduire les deux d'entre eux, L2 et d'abandon, mais au moins il travaille et s'améliore légèrement les résultats.

#ANN with introduced dropout
#This time we still use the L2 but restrict training dataset
#to be extremely small
#get just first 500 of examples, so that our ANN can memorize whole dataset
train_dataset_2 = train_dataset[:500, :]
train_labels_2 = train_labels[:500]
#batch size for SGD and beta parameter for L2 loss
batch_size = 128
beta = 0.001
#that's how many hidden neurons we want
num_hidden_neurons = 1024
#building tensorflow graph
graph = tf.Graph()
with graph.as_default():
# Input data. For the training data, we use a placeholder that will be fed
# at run time with a training minibatch.
tf_train_dataset = tf.placeholder(tf.float32,
shape=(batch_size, image_size * image_size))
tf_train_labels = tf.placeholder(tf.float32, shape=(batch_size, num_labels))
tf_valid_dataset = tf.constant(valid_dataset)
tf_test_dataset = tf.constant(test_dataset)
#now let's build our new hidden layer
#its weights
hidden_weights = tf.Variable(
tf.truncated_normal([image_size * image_size, num_hidden_neurons]))
hidden_biases = tf.Variable(tf.zeros([num_hidden_neurons]))
#now the layer itself. It multiplies data by weights, adds biases
#and takes ReLU over result
hidden_layer = tf.nn.relu(tf.matmul(tf_train_dataset, hidden_weights) + hidden_biases)
#add dropout on hidden layer
#we pick up the probabylity of switching off the activation
#and perform the switch off of the activations
keep_prob = tf.placeholder("float")
hidden_layer_drop = tf.nn.dropout(hidden_layer, keep_prob)  
#time to go for output linear layer
#out weights connect hidden neurons to output labels
#biases are added to output labels  
out_weights = tf.Variable(
tf.truncated_normal([num_hidden_neurons, num_labels]))  
out_biases = tf.Variable(tf.zeros([num_labels]))  
#compute output
#notice that upon training we use the switched off activations
#i.e. the variaction of hidden_layer with the dropout active
out_layer = tf.matmul(hidden_layer_drop,out_weights) + out_biases
#our real output is a softmax of prior result
#and we also compute its cross-entropy to get our loss
#Notice - we introduce our L2 here
loss = (tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(
out_layer, tf_train_labels) +
beta*tf.nn.l2_loss(hidden_weights) +
beta*tf.nn.l2_loss(hidden_biases) +
beta*tf.nn.l2_loss(out_weights) +
beta*tf.nn.l2_loss(out_biases)))
#now we just minimize this loss to actually train the network
optimizer = tf.train.GradientDescentOptimizer(0.5).minimize(loss)
#nice, now let's calculate the predictions on each dataset for evaluating the
#performance so far
# Predictions for the training, validation, and test data.
train_prediction = tf.nn.softmax(out_layer)
valid_relu = tf.nn.relu(  tf.matmul(tf_valid_dataset, hidden_weights) + hidden_biases)
valid_prediction = tf.nn.softmax( tf.matmul(valid_relu, out_weights) + out_biases) 
test_relu = tf.nn.relu( tf.matmul( tf_test_dataset, hidden_weights) + hidden_biases)
test_prediction = tf.nn.softmax(tf.matmul(test_relu, out_weights) + out_biases)
#now is the actual training on the ANN we built
#we will run it for some number of steps and evaluate the progress after 
#every 500 steps
#number of steps we will train our ANN
num_steps = 3001
#actual training
with tf.Session(graph=graph) as session:
tf.initialize_all_variables().run()
print("Initialized")
for step in range(num_steps):
# Pick an offset within the training data, which has been randomized.
# Note: we could use better randomization across epochs.
offset = (step * batch_size) % (train_labels_2.shape[0] - batch_size)
# Generate a minibatch.
batch_data = train_dataset_2[offset:(offset + batch_size), :]
batch_labels = train_labels_2[offset:(offset + batch_size), :]
# Prepare a dictionary telling the session where to feed the minibatch.
# The key of the dictionary is the placeholder node of the graph to be fed,
# and the value is the numpy array to feed to it.
feed_dict = {tf_train_dataset : batch_data, tf_train_labels : batch_labels, keep_prob : 0.5}
_, l, predictions = session.run(
[optimizer, loss, train_prediction], feed_dict=feed_dict)
if (step % 500 == 0):
print("Minibatch loss at step %d: %f" % (step, l))
print("Minibatch accuracy: %.1f%%" % accuracy(predictions, batch_labels))
print("Validation accuracy: %.1f%%" % accuracy(
valid_prediction.eval(), valid_labels))
print("Test accuracy: %.1f%%" % accuracy(test_prediction.eval(), test_labels))

Le papier original sur l'abandon scolaire n'appellent spécifiquement à ce type de configuration, de sorte que vous êtes probablement en bonne forme, de les essayer. Bien que je pourrais noter que je ne pense pas que c'est normal d'inclure la régularisation L2 sur les préjugés, uniquement sur le poids. jmlr.org/papers/volume15/srivastava14a.old/source/... stats.stackexchange.com/questions/153605/...
Il semble que nous avons besoin d'inclure L2 sur les préjugés ainsi. S'il vous plaît , prendre un coup d'oeil sur tensorflow MNIST exemple ici: github.com/tensorflow/tensorflow/blob/master/tensorflow/models/... une Recherche sur 'l2_loss' des appels de fonction.
Prendre cela comme un exemple: Nous avons une seule fonction de x, et c'est les valeurs de y, et nous avons effectuer un ajustement linéaire des données, y=mx+b. Si tous les points de données de cluster autour de y=1000 avec peu de variance, nous avons besoin d'une grande partialité de décalage de la ligne jusqu'à 1000. C'est n'est pas un problème à régler, c'est juste l'endroit où les données des mensonges. Le problème, c'est quand nous en surpoids d'une fonction. Le biais est juste un décalage. Cela dit, j'ai tracé l'histogramme des poids et des biais de classification et de régression des problèmes récemment, et dans les deux cas, j'ai vu des préjugés qui étaient grandes. Donc je doute que cela cause un problème visible.
L'exemple fourni semble erroné. Ce que je comprends, il n'est pas judicieux d'appliquer la régularisation de la partialité. Le parti pris de ne pas faire de votre modèle overfit, de sorte qu'il ne devrait pas être pénalisé. Voici un autre cours portant sur la régularisation: youtube.com/watch?v=ef2OPmANLaM (BTW je obtenir 93% de précision dans les 3000 étapes w/o à la régularisation du biais)
eh bien, c'exemples fournis par Tensorflow développe. Honnêtement, je ne suis pas profonde expert en Tensorflow et ML, de sorte que ces gars-là peuvent être confondus avec de bien
Voici la référence concernant la régularisation de la partialité que je voulais: deeplearningbook.org/contents/regularization.html, il suffit de chercher "biais" et vous trouverez un paragraphe là au sujet de ne pas régulariser le biais de l'unité.
oui. Biais ne doit pas être régularisés. J'ai supprimé à partir de votre code dans ma propre mise en œuvre, et il a travaillé un peu mieux.
Il fonctionne très bien comme vous l'avez écrit, mais reduce_mean résultats dans un scalaire comme le l2_loss, vous êtes cependant tout d'abord l'ajout d'un scalaire d'un tenseur et puis reduce_mean. Ce n'est pas nécessaire et je m'attends à être plus lent. Faire ceci à la place: loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits( out_layer, tf_train_labels)) + beta*tf.nn.l2_loss(hidden_weights) + ...
Je n'ai jamais vu la beta être multiplié par la perte de fonction. Est-ce normal? Cela doit un être un paramètre qui est à l'écoute?

InformationsquelleAutor Maksim Khaitovich

8

Il n'y a aucun inconvénient à l'utilisation de plusieurs régularisations. En fait, il s'agit d'un papier Abandon scolaire: Une Façon Simple d'Éviter les Réseaux de Neurones à partir de
Le surajustement où les auteurs ont vérifié combien ça aide. Clairement, pour les différents ensembles de données, vous aurez des résultats différents, mais pour votre MNIST:

vous pouvez voir que Dropout + Max-norm donne la plus faible erreur. En dehors de cela, vous avez un grosse erreur dans votre code.

Vous utilisez l2_loss sur les poids et les biais:
```
beta*tf.nn.l2_loss(hidden_weights) +
beta*tf.nn.l2_loss(hidden_biases) +
beta*tf.nn.l2_loss(out_weights) +
beta*tf.nn.l2_loss(out_biases)))
```
Vous ne devrait pas pénaliser élevé de biais. Donc, supprimer l2_loss plus de préjugés.

InformationsquelleAutor Salvador Dali
4

En fait, le document original utilise max-norme de la régularisation et de ne pas en L2, en plus d'abandon:
"Le réseau de neurones a été optimisé sous la contrainte ||w||2 ≤ c. Cette
la contrainte a été imposée lors de l'optimisation, par la projection de w sur la surface d'une boule de rayon c, lorsque w est allé hors de lui. Il est également appelé max-norme de régularisation, puisqu'elle implique que la valeur maximale que la norme de tout le poids est c" (http://jmlr.org/papers/volume15/srivastava14a/srivastava14a.pdf)

Vous pouvez trouver une belle discussion à propos de cette méthode de régularisation ici: https://plus.google.com/+IanGoodfellow/posts/QUaCJfvDpni

InformationsquelleAutor Yoel Zeldes

Vous devez vous connecter pour publier un commentaire.