Est-il bon au taux d'apprentissage pour Adam méthode?

Je suis une formation de ma méthode. J'ai obtenu le résultat comme ci-dessous. Est-il un bon apprentissage de taux? Si non, est-elle forte ou faible?
C'est mon résultat

Est-il bon au taux d'apprentissage pour Adam méthode?

lr_policy: "step"
gamma: 0.1
stepsize: 10000
power: 0.75
# lr for unnormalized softmax
base_lr: 0.001
# high momentum
momentum: 0.99
# no gradient accumulation
iter_size: 1
max_iter: 100000
weight_decay: 0.0005
snapshot: 4000
snapshot_prefix: "snapshot/train"
type:"Adam"

C'est la référence

Avec un faible taux d'apprentissage les améliorations seront linéaire. Avec de hauts taux d'apprentissage, ils commencent à regarder de plus exponentielle. L'enseignement supérieur taux de décroissance de la perte plus rapide, mais ils restent coincés au pire des valeurs de perte
Est-il bon au taux d'apprentissage pour Adam méthode?

Theres très peu de contexte ici, mais il semble bien. Vous pouvez essayer d'augmenter le taux d'apprentissage (pour gagner du temps de formation) jusqu'à ce que vous voyez, il n'est plus converge. Qu'est-ce que le jeu de la formation de la précision, à la fin?
Dans le réglage ci-dessus, le dernier taux d'erreur à 50000 itérations est de 0,05. Je suis augmentation de la base_lr à 0,002, au lieu de 0,001 à voir l'amélioration
Adam a un à l'intérieur de LR, la modification du externe LR sur les étapes ne peut faire sens.

OriginalL'auteur John | 2017-03-23