Pourquoi avons-nous besoin d'appeler zero_grad() dans PyTorch?

La méthode zero_grad() doit être appelé au cours de la formation. Mais le la documentation n'est pas très utile

|  zero_grad(self)
|      Sets gradients of all model parameters to zero.

Pourquoi devons-nous appeler cette méthode?

InformationsquelleAutor user1424739 | 2017-12-28

Dans PyTorch, nous avons besoin de définir les gradients à zéro avant de commencer à faire backpropragation parce que PyTorch accumule les gradients sur les arrière passe. C'est pratique pendant la formation RNNs. Ainsi, l'action par défaut est de s'accumulent (c'est à dire la somme) les gradients sur chaque loss.backward() appel.

À cause de cela, lorsque vous démarrez votre formation en boucle, idéalement, vous devriez zéro les gradients de sorte que vous ne le paramètre de mise à jour correctement. Sinon le gradient serait point dans quelque autre direction que la direction vers le minimum (ou maximum, dans le cas de la maximisation des objectifs).

Voici un exemple simple:

import torch
from torch.autograd import Variable
import torch.optim as optim

def linear_model(x, W, b):
    return torch.matmul(x, W) + b

data, targets = ...

W = Variable(torch.randn(4, 3), requires_grad=True)
b = Variable(torch.randn(3), requires_grad=True)

optimizer = optim.Adam([W, b])

for sample, target in zip(data, targets):
    # clear out the gradients of all Variables 
    # in this optimizer (i.e. W, b)
    optimizer.zero_grad()
    output = linear_model(sample, W, b)
    loss = (output - target) ** 2
    loss.backward()
    optimizer.step()

Alternativement, si vous êtes en train de faire un vanille descente de gradient, puis:

W = Variable(torch.randn(4, 3), requires_grad=True)
b = Variable(torch.randn(3), requires_grad=True)

for sample, target in zip(data, targets):
    # clear out the gradients of Variables 
    # (i.e. W, b)
    W.grad.data.zero_()
    b.grad.data.zero_()

    output = linear_model(sample, W, b)
    loss = (output - target) ** 2
    loss.backward()

    W -= learning_rate * W.grad.data
    b -= learning_rate * b.grad.data

Note: Le accumulation (c'est à dire somme) des gradients de se produire lorsque .vers l'arrière() est appelée sur le perte tenseur.

merci beaucoup, c'est vraiment utile! Ne vous arrive de savoir si le tensorflow a ce comportement?

InformationsquelleAutor kmario23

Vous devez vous connecter pour publier un commentaire.