Instance de Normalisation de la vs à la normalisation de Lots
Je comprends que la Normalisation de Lots permet en plus rapide de la formation par rotation de l'activation vers l'unité de distribution Gaussienne et donc de s'attaquer à de fuite des gradients de problème. Lot norme actes est appliquée différemment à la formation(utilisation moyenne/var de chaque lot) et le temps de test (utilisation finalisé l'exécution de dire/var à partir de la phase de formation).
Instance de normalisation, d'autre part, les actes que le contraste de la normalisation comme mentionné dans le présent document https://arxiv.org/abs/1607.08022 . Les auteurs mentionnent que la sortie stylisée, les images doivent être dépend pas de la revanche de la saisie du contenu de l'image et donc de l'Instance de normalisation de l'aide.
Mais alors, doit-on pas utiliser l'instance de normalisation pour la classification d'images de la classe de l'étiquette ne doit pas dépendre du contraste de l'image d'entrée. Je n'ai vu aucun papier à l'aide de l'instance de normalisation en place de la normalisation de lots pour la classification. Quelle est la raison? Aussi, peut et doit de lot et de l'instance de normalisation être utilisés ensemble. Je suis désireux d'obtenir une interface intuitive ainsi que la compréhension théorique de quand utiliser la normalisation.
OriginalL'auteur Ruppesh Nalwaya | 2017-08-02
Vous devez vous connecter pour publier un commentaire.
Définition
Commençons par la définition stricte des deux:
Lot de normalisation
Instance de normalisation
Comme vous pouvez le constater, ils sont en train de faire la même chose, sauf pour le nombre d'entrées tenseurs qui sont normalisées conjointement. Lot version normalise toutes les images à travers le lot et localisations spatiales (dans le cas ordinaire, dans CNN c'est différent); la version de l'instance normalise chaque lot indépendamment, c'est à dire, à travers localisations spatiales seulement.
En d'autres termes, des lots, norme calcule une moyenne et std dev (et donc de faire de la distribution de l'ensemble de la couche de Gauss), instance norme calcule
T
d'entre eux, faisant de chaque individu de distribution de l'image look Gaussien, mais pas conjointement.Une analogie simple: pendant l'étape de prétraitement, il est possible de normaliser les données sur chaque image ou normaliser l'ensemble du jeu de données.
de Crédit: les formules sont de ici.
Qui normalisation est le meilleur?
La réponse dépend de l'architecture du réseau, en particulier sur ce qui est fait après la normalisation de la couche. Image de classification des réseaux sont généralement pile de la fonctionnalité de cartes, et les fils du FC couche, qui part de poids à travers le lot (la façon moderne est l'utilisation de la CONV couche au lieu de FC, mais l'argument s'applique toujours).
C'est là que la distribution des nuances début à la question: le même neurone va recevoir l'entrée de toutes les images. Si la variance à travers le lot est élevé, le gradient de la petite activations d'être complètement supprimée par la haute activations, ce qui est exactement le problème que lot norme essaie de le résoudre. C'est pourquoi il est assez possible que par l'instance de normalisation n'améliorera pas la convergence de réseau.
D'autre part, la normalisation de lots ajoute du bruit à la formation, parce que le résultat pour une instance particulière dépend du voisin instances. Comme il s'avère, ce type de bruit peut être bon et mauvais pour le réseau. Ceci est bien expliqué dans le "Poids Normalisation" papier par Tim Salimans de l'al, le nom de réseaux de neurones récurrents et l'apprentissage par renforcement DQNs comme sensibles au bruit des applications. Je ne suis pas entièrement sûr, mais je pense que le même bruit de sensibilité a été le principal problème dans la stylisation de la tâche, l'instance norme essayé de lutter. Il serait intéressant de vérifier si le poids de la norme effectue meilleur pour cette tâche particulière.
Pouvez-vous combiner lot et de l'instance de normalisation?
Si elle fait un valide réseau de neurones, il n'y a pas de pratique de l'utiliser. Lot de normalisation du bruit est soit en aidant les processus d'apprentissage (dans ce cas, il est préférable) ou de le blesser (dans ce cas, il est préférable de le supprimer). Dans les deux cas, de quitter le réseau, avec un type de normalisation est susceptible d'améliorer les performances.
Je tiens à ajouter qu'il y a un article récent publié suggérant une couche qui combine différentes normalisations avec apprend paramètres. Donc, pour que le réseau "décider", qui normalisation pour tenir compte des "Dérivable à l'Apprentissage de Normaliser via Commutable Normalisation"
Aussi, avec l'Instance de Normalisation du comportement au train et à l'inférence est la même. Lors de l'inférence, les statistiques à l'aide de normalisation sont calculées à partir des images, plutôt que d'utiliser les statistiques calculées dans l'ensemble de la formation.
OriginalL'auteur Maxim
Excellente question et déjà répondu gentiment. Juste pour ajouter: j'ai trouvé cette visualisation De Kaiming, Il du Groupe de la Norme document utile.
Source: lien vers l'article sur les Moyennes des contrastes entre les Normes
OriginalL'auteur Stephen Morrell
Je voulais ajouter plus d'informations à cette question puisqu'il y a quelques œuvres plus récentes dans ce domaine. Votre intuition
est partiellement correcte. Je dirais qu'un cochon en plein jour est encore un cochon quand l'image est prise à la nuit ou à l'aube. Toutefois, cela ne signifie pas que l'aide de l'instance de normalisation à travers le réseau vous donnera un meilleur résultat. Voici quelques raisons:
IBN-Net utilise à la fois à la normalisation de lots et de l'instance de normalisation dans leur modèle. Ils mettent seulement instance de normalisation au début de couches et ont permis l'amélioration à la fois de la précision et de la possibilité de généraliser. Ils ont ouvert de source code ici.
OriginalL'auteur hkchengrex
EN visuel et de l'apparence de la variance et BN accélérer la formation et de préserver la fonction discriminante.
DE préférence la couche Superficielle(à partir de la couche de CNN) donc enlever l'apparence de la variation et de BN est préféré dans les couches profondes(dernière CNN couche) devrait être de réduire dans le but de maintenir la discrimination.
OriginalL'auteur praveen