Quelle est la différence entre le "MÊME" et "VALIDES" rembourrage en tf.nn.max_pool de tensorflow?

Quelle est la différence entre le "MÊME" et "VALIDES" rembourrage en tf.nn.max_pool de tensorflow?

À mon avis, "VALIDE" signifie qu'il n'y aura pas de zéro de remplissage à l'extérieur des limites quand nous faisons max de la piscine.

Selon Un guide de la convolution de l'arithmétique pour l'apprentissage en profondeur, il dit qu'il n'y aura pas de rembourrage dans la piscine de l'opérateur, c'est à dire l'utilisation juste "VALIDES" de tensorflow.
Mais qu'est-ce que "MÊME" rembourrage de max de la piscine dans tensorflow?

Vérifier tensorflow.org/api_guides/python/... pour les détails, c'est comment tf fait.
Voici une jolie réponse détaillée à l'aide de visualisations.
Découvrez ces magnifiques gifs pour comprendre comment rembourrage et de la foulée des travaux. Lien

OriginalL'auteur karl_TUM | 2016-06-07

120

Je vais vous donner un exemple pour le rendre plus clair:
- x: image d'entrée de la forme [2, 3], 1 canal
- valid_pad: max de la piscine avec 2x2 noyau, stride 2 et VALIDE rembourrage.
- same_pad: max de la piscine avec 2x2 noyau, stride 2 et MÊME le rembourrage (c'est le classique la voie à suivre)
La sortie de formes sont:
- valid_pad: ici, pas de rembourrage afin que la sortie de la forme [1, 1]
- same_pad: ici, nous tampon de l'image de la forme [2, 4] (avec -inf et ensuite appliquer max de la piscine), de sorte que la sortie de la forme [1, 2]
```
x = tf.constant([[1., 2., 3.],
                 [4., 5., 6.]])

x = tf.reshape(x, [1, 2, 3, 1])  # give a shape accepted by tf.nn.max_pool

valid_pad = tf.nn.max_pool(x, [1, 2, 2, 1], [1, 2, 2, 1], padding='VALID')
same_pad = tf.nn.max_pool(x, [1, 2, 2, 1], [1, 2, 2, 1], padding='SAME')

valid_pad.get_shape() == [1, 1, 1, 1]  # valid_pad is [5.]
same_pad.get_shape() == [1, 1, 2, 1]   # same_pad is  [5., 6.]
```
OriginalL'auteur Olivier Moindrot
463

Si vous aimez l'art ascii:
- "VALID" = sans rembourrage:
```
   inputs:         1  2  3  4  5  6  7  8  9  10 11 (12 13)
                  |________________|                dropped
                                 |_________________|
```
- "SAME" = zéro padding:
```
               pad|                                      |pad
   inputs:      0 |1  2  3  4  5  6  7  8  9  10 11 12 13|0  0
               |________________|
                              |_________________|
                                             |________________|
```
Dans cet exemple:
- Largeur d'entrée = 13
- Filtre largeur = 6
- Stride = 5
Notes:
- "VALID" jamais gouttes le plus à droite des colonnes (ou lignes les plus basses).
- "SAME" essaie de pad uniformément à gauche et à droite, mais si le nombre de colonnes à ajouter est impair, il va ajouter de la colonne à la droite, comme c'est le cas dans cet exemple (la même logique s'applique à la verticale: il peut y avoir une ligne supplémentaire de zéros en bas).
Est-il juste de dire "MÊME" signifie "utiliser zero-padding assurez-vous que la taille du filtre n'a pas à modifier si la largeur de l'image n'est pas un multiple du filtre de la largeur ou de la hauteur de l'image n'est pas un multiple du filtre de la hauteur"? Comme dans "pad avec des zéros jusqu'à un multiple du filtre de largeur" si la largeur est le problème?
Pour répondre à ma propre question latérale: NON, ce n'est pas le point de zéro de remplissage. Vous choisissez la taille du filtre à travailler avec l'entrée (y compris zéro de remplissage), mais vous n'avez pas le choix du zéro de remplissage après la taille du filtre.
meilleure réponse !!!!!!
Je ne comprends pas votre propre réponse @StatsSorceress . Il me semble que vous ajoutez assez de zéros (dans un aussi symétrique que possible), de sorte que toutes les entrées sont couvertes par un filtre, ai-je le droit?
Super réponse, juste pour ajouter: Dans le cas où le tenseur de valeurs peuvent être négatives, rembourrage pour max_pooling est avec -inf.

OriginalL'auteur MiniQuark
110

Quand stride est de 1 (plus typique de convolution de mise en commun), nous pouvons penser à la distinction suivante:
- "SAME": la taille de la sortie est de la même que la taille de l'image. Cela nécessite la fenêtre de filtre à glisser à l'extérieur de l'entrée de la carte, d'où la nécessité de pad.
- "VALID": Fenêtre de filtre reste à valide position à l'intérieur de l'entrée de la carte, de sorte que la taille de sortie se rétrécit par filter_size - 1. Pas de rembourrage se produit.
C'est enfin utile. Jusqu'à ce point, il est apparu que SAME et VALID peuvent aussi bien avoir été appelé foo et bar
Même sentiment ici! @omatai
Je pense que "la taille de sortie est le comme la taille de l'image" n'est vrai que lorsque la longueur de la foulée est 1.
Oui, c'est exactement mon introduction de mots.
Désolé oublié.

OriginalL'auteur YvesgereY

La TensorFlow De Convolution exemple donne un aperçu sur la différence entre SAME et VALID :

Pour la SAME rembourrage, la sortie de la hauteur et la largeur sont calculés comme:

out_height = ceil(float(in_height) / float(strides[1]))
out_width  = ceil(float(in_width) / float(strides[2]))

Pour la VALID rembourrage, la sortie de la hauteur et la largeur sont calculés comme:

out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))
out_width  = ceil(float(in_width - filter_width + 1) / float(strides[2]))

OriginalL'auteur RoyaumeIX

42

Rembourrage est une opération pour augmenter la taille des données d'entrée. Dans le cas de 1-dimensions données que vous venez d'ajouter/préfixer le tableau avec une constante, dans 2-dim vous entourent matrice avec ces constantes. En n-dim vous entourez votre n-dim hypercube avec la constante. Dans la plupart des cas, cette constante est égale à zéro et il est appelé zero-padding.

Voici un exemple de zéro-padding avec p=1 appliquée à 2-d tenseur:

Vous pouvez utiliser arbitraire de rembourrage pour votre noyau, mais certaines des valeurs de remplissage sont utilisés plus fréquemment que d'autres, ils sont:
- VALIDE rembourrage. Le cas le plus facile, moyen pas de rembourrage. Il suffit de laisser vos données de la même il est.
- MÊME rembourrage parfois appelé la MOITIÉ de rembourrage. Il est appelé MÊME parce que, pour un produit de convolution avec une foulée=1, (ou pour la mise en commun), il doit produire une sortie de la même taille que l'entrée. Il est appelé la MOITIÉ parce que pour un noyau de taille k
- Remplissage COMPLET est la durée maximale de rembourrage, qui ne fait pas une convolution par rapport à un simple collier éléments. Pour un noyau de taille k, ce remplissage est égal à k - 1.
À l'utilisation arbitraire de rembourrage en TF, vous pouvez utiliser tf.pad()

OriginalL'auteur Salvador Dali
22

Explication Rapide

VALID: Ne pas appliquer de tout remplissage, c'est à dire, supposons que toutes les dimensions sont valide de sorte que l'image d'entrée pleinement est couverte par le filtre et de la foulée que vous avez spécifié.

SAME: Appliquer le rembourrage à l'entrée (si nécessaire) pour que l'image d'entrée est entièrement couvert par le filtre et de la foulée que vous avez spécifié. Pour foulée 1, cela permettra de s'assurer que la taille d'image de sortie est même comme entrée.

Notes
- Cela s'applique à conv couches ainsi que max piscine couches de la même manière
- Le terme "valide" est un peu un abus de langage parce que les choses ne deviennent pas des "invalide" si vous déposez une partie de l'image. Parfois, vous pouvez même souhaitez. Cela devrait probablement être appelé NO_PADDING à la place.
- Le terme "même" est un abus de langage car il n'a de sens que pour foulée de 1 lors de la dimension de sortie est identique à l'entrée de la dimension. Pour foulée de 2, sortie dimensions seront de la moitié, par exemple. Cela devrait probablement être appelé AUTO_PADDING à la place.
- Dans SAME (c'est à dire auto-mode pad), Tensorflow va essayer d'étaler rembourrage uniformément sur les deux de gauche et de droite.
- Dans VALID (pas de mode de remplissage), Tensorflow va tomber à droite et/ou de cellules de fond si votre filtre et de la foulée n'est pas une couverture complète de l'image d'entrée.
OriginalL'auteur Shital Shah
11

Il y a trois choix de rembourrage: valide (pas de remplissage), même (ou la moitié), complet. Vous pouvez trouver des explications (en Théano) ici:
http://deeplearning.net/software/theano/tutorial/conv_arithmetic.html
- Valide ou pas de rembourrage:
La validité de rembourrage n'implique pas de zéro de remplissage, de sorte qu'il ne couvre que les entrées valides, non compris les produits artificiellement des zéros. La longueur de sortie est ((la longueur de l'entrée) - (k-1)) pour le noyau de taille k si la foulée s=1.
- Même ou demi-rembourrage:
La même rembourrage rend la taille des sorties d'être le même que celui des entrées lorsque s=1. Si s=1, le nombre de zéros collier est (k-1).
- Remplissage complet:
Le remplissage complet signifie que le noyau s'exécute sur l'ensemble des entrées, donc à la fin, le noyau peut répondre à la seule entrée et des zéros ailleurs. Le nombre de zéros collier est de 2(k-1) si s=1. La longueur de sortie est ((la longueur de l'entrée) + (k-1)) si s=1.

Par conséquent, le nombre de remplissages: (valide) <= (lui-même) <= (complet)

OriginalL'auteur Change-the-world

Je viens de citer cette réponse officielle tensorflow docs https://www.tensorflow.org/api_guides/python/nn#Convolution
Pour la "MÊME" padding, la sortie de la hauteur et la largeur sont calculés comme:

out_height = ceil(float(in_height) / float(strides[1]))
out_width  = ceil(float(in_width) / float(strides[2]))

et le rembourrage sur le dessus et à gauche sont calculés comme:

pad_along_height = max((out_height - 1) * strides[1] +
                    filter_height - in_height, 0)
pad_along_width = max((out_width - 1) * strides[2] +
                   filter_width - in_width, 0)
pad_top = pad_along_height // 2
pad_bottom = pad_along_height - pad_top
pad_left = pad_along_width // 2
pad_right = pad_along_width - pad_left

Pour les "VALIDES" de rembourrage, la sortie de la hauteur et la largeur sont calculés comme:

out_height = ceil(float(in_height - filter_height + 1) / float(strides[1]))
out_width  = ceil(float(in_width - filter_width + 1) / float(strides[2]))

et les valeurs de remplissage sont toujours à zéro.

Franchement c'est le seul valide et complète réponse, ne se limite pas à des progrès de 1. Et tout ce qu'il faut c'est une citation de la documentation. +1

OriginalL'auteur Vaibhav Dixit

Sur la base des explications ici et le suivi de Tristan réponse, j'ai l'habitude d'utiliser ces fonctions rapides pour des contrôles d'intégrité.

# a function to help us stay clean
def getPaddings(pad_along_height,pad_along_width):
# if even.. easy..
if pad_along_height%2 == 0:
pad_top = pad_along_height / 2
pad_bottom = pad_top
# if odd
else:
pad_top = np.floor( pad_along_height / 2 )
pad_bottom = np.floor( pad_along_height / 2 ) +1
# check if width padding is odd or even
# if even.. easy..
if pad_along_width%2 == 0:
pad_left = pad_along_width / 2
pad_right= pad_left
# if odd
else:
pad_left = np.floor( pad_along_width / 2 )
pad_right = np.floor( pad_along_width / 2 ) +1
#
return pad_top,pad_bottom,pad_left,pad_right
# strides [image index, y, x, depth]
# padding 'SAME' or 'VALID'
# bottom and right sides always get the one additional padded pixel (if padding is odd)
def getOutputDim (inputWidth,inputHeight,filterWidth,filterHeight,strides,padding):
if padding == 'SAME':
out_height = np.ceil(float(inputHeight) / float(strides[1]))
out_width  = np.ceil(float(inputWidth) / float(strides[2]))
#
pad_along_height = ((out_height - 1) * strides[1] + filterHeight - inputHeight)
pad_along_width = ((out_width - 1) * strides[2] + filterWidth - inputWidth)
#
# now get padding
pad_top,pad_bottom,pad_left,pad_right = getPaddings(pad_along_height,pad_along_width)
#
print 'output height', out_height
print 'output width' , out_width
print 'total pad along height' , pad_along_height
print 'total pad along width' , pad_along_width
print 'pad at top' , pad_top
print 'pad at bottom' ,pad_bottom
print 'pad at left' , pad_left
print 'pad at right' ,pad_right
elif padding == 'VALID':
out_height = np.ceil(float(inputHeight - filterHeight + 1) / float(strides[1]))
out_width  = np.ceil(float(inputWidth - filterWidth + 1) / float(strides[2]))
#
print 'output height', out_height
print 'output width' , out_width
print 'no padding'
# use like so
getOutputDim (80,80,4,4,[1,1,1,1],'SAME')

OriginalL'auteur ahmedhosny

4

Rembourrage marche/arrêt. Détermine la taille effective de votre entrée.

VALID: Pas de rembourrage. La Convolution etc. des opérations sont effectuées uniquement à des endroits qui sont "valides", c'est à dire pas trop près des frontières de votre tenseur.
Avec un noyau de 3x3 et l'image de 10x10, vous serait d'effectuer la convolution sur le 8x8 zone à l'intérieur des frontières.

SAME: Rembourrage est fourni. Chaque fois que votre opération fait référence à un quartier, à n'importe quelle taille), les valeurs nulles sont fournies lors de ce quartier s'étend à l'extérieur du tenseur d'origine pour permettre cette opération à travailler aussi sur la frontière des valeurs.
Avec un noyau de 3x3 et l'image de 10x10, vous serait d'effectuer la convolution sur la totalité de 10x10 zone.

OriginalL'auteur Laine Mikael
2

VALIDE padding: c'est avec zéro de remplissage. Espérons qu'il y est pas de confusion.
```
x = tf.constant([[1., 2., 3.], [4., 5., 6.],[ 7., 8., 9.], [ 7., 8., 9.]])
x = tf.reshape(x, [1, 4, 3, 1])
valid_pad = tf.nn.max_pool(x, [1, 2, 2, 1], [1, 2, 2, 1], padding='VALID')
print (valid_pad.get_shape()) # output-->(1, 2, 1, 1)
```
MÊME padding: C'est le genre de difficile à comprendre, en premier lieu, parce que nous avons à examiner 2 conditions séparément comme mentionné dans le officiel docs.

Prenons en entrée comme $Quelle est la différence entre le$ . (singal dimentina est pris en considération)

De cas 01: $Quelle est la différence entre le$

Cas 02: $Quelle est la différence entre le$

$Quelle est la différence entre le$ .

Nous allons travailler sur cet exemple:
```
x = tf.constant([[1., 2., 3.], [4., 5., 6.],[ 7., 8., 9.], [ 7., 8., 9.]])
x = tf.reshape(x, [1, 4, 3, 1])
same_pad = tf.nn.max_pool(x, [1, 2, 2, 1], [1, 2, 2, 1], padding='SAME')
print (same_pad.get_shape()) # --> output (1, 2, 2, 1)
```
Ici la dimension de x est (3,4). Ensuite, si la direction horizontale (3):

$Quelle est la différence entre le$

Si le vertial direction est prise (4):

$Quelle est la différence entre le$

Espère que cela va aider à comprendre comment MÊME rembourrage travaille en TF.

OriginalL'auteur GPrathap
0

Ici, W et H sont la largeur et la hauteur de l'entrée,
F sont les dimensions du filtre,
P est le rembourrage de la taille (c'est à dire, le nombre de lignes ou de colonnes à collier)

De MÊME padding:

Pour VALIDE padding:

OriginalL'auteur Shivam Kushwaha

Vous devez vous connecter pour publier un commentaire.