Douce attention vs dur attention

Dans ce blog, La Déraisonnable Efficacité des Réseaux de Neurones Récurrents, Andrej Karpathy mentionne les orientations futures pour les réseaux de neurones à fonction d'apprentissage de la machine:

Le concept de l'attention est le plus intéressant d'architecture de l'innovation dans les réseaux de neurones. [...] doux à l'attention de régime pour l'adressage de mémoire est pratique car il permet de conserver le modèle entièrement dérivable, mais malheureusement on sacrifie l'efficacité parce que tout ce qui peut être assisté à est fréquenté (mais doucement). Pensez à ce que de déclarer un pointeur en C qui ne pointent pas vers une adresse spécifique, mais au lieu de cela définit un ensemble de distribution sur toutes les adresses de l'ensemble de la mémoire, et du déréférencement du pointeur renvoie la somme pondérée de la pointe de contenu (ce qui serait une opération coûteuse!). Cela a conduit plusieurs auteurs à swap doux à l'attention de modèles pour dur attention où l'on échantillonne un particulier partie de la mémoire à assister à l' (par exemple, une action de lecture/écriture de la mémoire de la cellule à la place de la lecture/écriture de toutes les cellules à un certain degré). Ce modèle est nettement plus attrayant du point de vue philosophique, évolutive et efficace, mais malheureusement, il est également non-dérivable.

Je crois que j'ai compris le pointeur de la métaphore, mais ce qui est exactement l'attention et pourquoi est la plus difficile de ne pas dérivable?

J'ai trouvé une explication sur l'attention ici, mais toujours confus au sujet de la mou/dur.

Je ne sais pas la réponse, mais vous pouvez tenter votre question sur Quora. Il y a une quantité substantielle de l'activité autour de l'apprentissage en profondeur.

OriginalL'auteur dimid | 2016-02-22