Pourquoi la rotation de l'invariant de réseaux de neurones ne sont pas utilisés dans les gagnants de la populaire compétition?
Comme on le sait, moderne le plus populaire de CNN (réseau de neurones à convolution): VGG/l'organisme (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - ne sont pas faites pivoter invariant: Sont modernes CNN (réseau de neurones à convolution) comme DetectNet tourner invariant?
Également connu, qu'il y a plusieurs réseaux de neurones avec rotation de l'invariance de la détection d'objet:
-
Rotation De L'Invariant De Neoperceptron 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron
-
L'apprentissage de la rotation de l'invariant de convolution des filtres pour la texture de la classification 2016 (PDF): https://arxiv.org/abs/1604.06720
-
RIFD-CNN: Rotation-Invariant et Discriminante de Fisher Convolutifs Réseaux de Neurones pour la Détection d'Objet 2016 (PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html
-
Codé Invariance dans des Réseaux de Neurones à Convolution 2014 (PDF)
-
Rotation de l'invariant de convolution réseaux de neurones pour la galaxie de la morphologie de prédiction (PDF): https://arxiv.org/abs/1503.07077
-
Apprentissage de Rotation de l'Invariant de Convolution des Réseaux de Neurones pour la Détection d'Objet en VHR Optique d'Images de Télédétection 2016: http://ieeexplore.ieee.org/document/7560644/
Nous le savons, que dans une telle image, détection de compétitions: IMAGE-NET, MSCOCO, PASCAL VOC - réseau utilisé des ensembles (simultanément certains réseaux neuronaux). Ou réseaux, des ensembles net unique comme l'organisme (Résiduelle des Réseaux se Comportent Comme des Ensembles de Relativement faible des Réseaux)
Mais qui sont utilisées de rotation de l'invariant de réseau, des ensembles gagnants comme MSRA, et si non, alors pourquoi? Pourquoi dans l'ensemble de la rotation-invariant réseau n'ajoute pas de précision pour détecter certains objets tels que les avions d'objets - dont les images se fait à différents angles de rotation?
Il peut être:
-
avion objets qui sont photographiés à partir du sol
-
ou les objets au sol qui sont photographiés à partir de l'air
Pourquoi la rotation de l'invariant de réseaux de neurones ne sont pas utilisés dans les gagnants de l'objet populaire de détection des compétitions?
- Dans de nombreuses compétitions les gens à analyser chaque classe et ses éventuelles rotations. Une photo d'un avion dans le ciel peut avoir chaque rotation possible, mais une horizontale de l'image d'un chien de course pas. Et elles génèrent de nouvelles de la formation des images à partir de celles à l'origine avec chaque rotation possible. Peut-être que c'est plus précis qu'une rotation de l'invariant de l'algorithme. Une autre explication possible est qu'il existe très efficace bibliothèques pour exécuter CNNs sur les Gpu (je ne sais pas si il y a efficace des bibliothèques sur les Gpu pour faire pivoter l'invariant de réseaux de neurones).
- 1. Oui, faire pivoter l'invariant de l'approche peut être utilisée que pour une transformation affine (pour détecter air-objets à partir du sol ou du rez-de-objets de l'air), mais pas pour ellastic transformation (pour détecter les animaux), et pas pour les rotations autour d'un axe de tir extérieur de l'avion. Mais tournez-invariante de CNN peut être utilisée en plus de l'ordinaire convolutifs réseau dans des ensembles. Tournez-invariante de CNN nécessite beaucoup moins d'images d'entrée et des paramètres réglables - et donc d'apprendre plus vite et plus précis (pour la plupart des objets appropriés)
- 2. à Propos de GPU. 5.La Rotation de l'invariant de convolution réseaux de neurones pour la galaxie de la morphologie de prédiction:
7.9 Implementation ... This allowed the use of GPU acceleration without any additional effort... Networks were trained on NVIDIA GeForce GTX 680 cards.
arxiv.org/pdf/1503.07077v1.pdf peut-être Aussi de faire pivoter l'invariant decv::SURF_GPU
d'une certaine façon peut être utilisé à la place de la convolution par un noyau (de la matrice). - En fait, la rotation de l'invariant de fonctionnalité est très utile pour la détection d'objets dans les images aériennes. Par exemple, le nouvel algorithme de [RoI Transformateur] (arxiv.org/abs/1812.00155 de DOTA.
Vous devez vous connecter pour publier un commentaire.
Les récents progrès dans la reconnaissance d'image qui a été principalement faite par le changement de l'approche d'un classique fonction de sélection - peu profonde algorithme d'apprentissage à pas de fonction de sélection de profondeur algorithme d'apprentissage n'était pas seulement causée par les propriétés mathématiques des réseaux de neurones à convolution. Oui bien sûr, leur capacité à saisir les mêmes informations à l'aide de plus petit nombre de paramètres a été en partie causée par leurs maj invariance de la propriété mais la récente recherche a montré que ce n'est pas une clé dans la compréhension de leur succès.
À mon avis la principale raison derrière ce succès est le développement de plus rapide les algorithmes d'apprentissage que plus mathématiquement exact et c'est pourquoi moins d'attention est mise sur le développement d'un autre propriété invariante des réseaux de neurones.
De cours - la rotation de l'invariance n'est pas ignoré à tous. C'est en partie par les données d'augmentation de l'endroit où vous mettez les légèrement modifiée (par exemple, une rotation ou mis à l'échelle) de l'image de votre jeu de données - avec la même étiquette. Comme nous pouvons le lire dans ce livre fantastique ces deux approches (plus de structure vs moins la structure + données d'augmentation) sont plus ou moins équivalentes. (Chapitre 5.5.3, intitulé: Invariances)
augment
mais a été incapable de trouver quoi que ce soit.Je me demande aussi pourquoi la communauté ou de l'érudit n'a pas mis beaucoup d'attention sur la ration de l'invariant de CNN comme @Alex.
Une cause possible, à mon avis, est que de nombreux scénarios n'avez pas besoin de cette propriété, en particulier pour ceux populaire des compétitions. Comme Rob mentionné, certaines naturelles, les photos sont déjà prises dans un cadre unifié à l'horizontale (ou verticale) façon. Par exemple, la détection des visages, de nombreux travaux permettra d'aligner l'image pour s'assurer que les personnes sont debout sur la terre avant de le servir à tout CNN modèles. Pour être honnête, c'est le plus efficace et bon marché pour cette tâche particulière.
Cependant, il existe certaines situations dans la vie réelle, ayant besoin de la rotation de l'invariant de la propriété. J'en viens donc à une autre supposition: ce problème n'est pas difficile à partir de ces experts (chercheurs ou des) " vue. Au moins nous pouvons utiliser les données d'augmentation d'obtenir une certaine rotation de l'invariant.
Enfin, merci beaucoup pour votre synthèse sur les papiers. J'ai ajouté encore un papier Groupe Equivariant Convolutifs Networks_icml2016_GCNN et ses mise en œuvre sur github par d'autres personnes.
De détection d'un objet est principalement tirée par le succès des algorithmes de détection dans le monde-célèbre de la détection d'objet repères comme PASCAL-COV et MS-COCO, qui sont l'objet centré sur les jeux de données où la plupart des objets sont à la verticale (plantes en pot, les humains, les chevaux, etc.) et ainsi, les données d'augmentation, avec de gauche à droite flips est souvent suffisante (pour tout ce que nous savons de données d'augmentation, avec rotation des images comme à l'envers flips pourrait même nuire les performances de détection).
Chaque année, l'ensemble de la communauté adopte la structure algorithmique de base de la solution gagnante et de le développer (j'exagère un peu pour prouver un point, mais pas tellement).
Il est intéressant de noter que d'autres moins connues des sujets comme texte comportant des détections et orienté véhicule détections dans l'imagerie aérienne à la fois besoin de rotation de l'invariant de fonctionnalités et de rotation equivariant de détection de canalisations (comme dans les deux articles de Cheng vous l'avez mentionné).
Si vous voulez trouver de la littérature et du code dans ce domaine, vous avez besoin de plonger dans ces deux domaines. Je peux déjà vous donner quelques conseils comme la DOTA défi d'imagerie aérienne ou de l' ICDAR défis de texte comportant des détections.
Comme @Marcin Mozejko dit, CNN, sont, par nature, de traduction invariant et pas la rotation de l'invariant. C'est un problème ouvert comment intégrer la rotation parfaite invariance les quelques articles qui traitent avec elle ont encore à devenir des normes, même si certains d'entre eux semblent prometteuses.
Mon favori pour la détection de la modification de la rapidité de R-CNN a récemment proposé par Ma.
J'espère que cette direction de recherche sera étudiée plus et plus une fois que les gens vont en avoir marre de MS-COCO et de COV.
Ce que vous pourriez essayer de prendre un état-of-the-art détecteur de formation sur MS-COCO comme Plus rapide R-CNN avec NASNet de TF API de détection de et voir comment il se comporte wrt rotation de l'image de test, à mon avis, il devait être loin de rotation de l'invariant.