Qu'est ce qu'une politique de renforcement de l'apprentissage?

J'ai vu des mots tels que:

Une stratégie définit l'apprentissage de l'agent façon de se comporter à un moment donné. Environ
en parlant, d'une politique et d'une cartographie de la part des états de l'environnement pour les mesures à prendre lorsque dans ces états.

Mais encore ne comprennent pas entièrement. Est-ce qu'une politique de renforcement de l'apprentissage?

OriginalL'auteur Alexander Cyberman | 2017-09-17

reinforcement-learning terminology

12

La définition est correcte, mais pas immédiatement évident, si vous le voyez pour la première fois. Permettez-moi de le dire de cette manière: d'une politique et d'un agent de la stratégie.

Par exemple, imaginez un monde où un robot se déplace à travers la salle et la tâche est d'arriver à la cible point (x, y), où il obtient une récompense. Ici:
- Une chambre, un environnement
- Robot position actuelle est un état
- Un politique est ce qu'un agent ne pour accomplir cette tâche:
  - muet robots tout simplement se promener au hasard jusqu'à ce qu'ils finissent accidentellement dans le bon endroit (politique no 1)
  - d'autres peuvent, pour quelque raison, apprendre à longer les murs de la plupart de la route (politique no 2)
  - des robots intelligents plan de la route dans leur "tête" et d'aller droit au but (politique no 3)
Évidemment, certains politiques sont mieux que d'autres, et il y a de multiples façons de les évaluer, à savoir de l'état de la valeur de la fonction et action-valeur de la fonction. L'objectif de RL est d'apprendre la meilleure politique. Maintenant, la définition devrait faire plus de sens (à noter que dans le contexte du temps est mieux comprise comme un état):

Une stratégie définit l'apprentissage de l'agent façon de se comporter à un moment donné.

Officiellement

Plus formellement, nous devons d'abord définir de Markov, Processus de prise de Décision (MDP), un tuple (S, A, P, R, y), où:
- S est un ensemble fini d'états
- A est un ensemble fini d'actions
- P est un état de transition matrice de probabilité (la probabilité de se retrouver dans un état pour chaque état actuel et chaque action)
- R est une fonction de récompense, étant donné un état et une action
- y est un facteur d'actualisation, entre 0 et 1
Ensuite, une politique π est une distribution de probabilité sur les actions des états donnés. C'est la probabilité de chaque action lorsqu'un agent est dans un état particulier (bien sûr, je ne m'attarde pas beaucoup de détails ici). Cette définition correspond à la deuxième partie de votre définition.

Je recommande fortement David Silver RL cours disponible sur YouTube. Les deux premières conférences mettent l'accent en particulier sur les MDPs et politiques.

OriginalL'auteur Maxim
5

En clair, dans le cas le plus simple, une politique π est une fonction qui prend en entrée un état s et retourne une action a. Qui est: π(s) → a

De cette manière, la politique est généralement utilisé par l'agent pour décider de l'action qu' a doit être effectué quand il est dans un état donné s.

Parfois, la politique peut être stochastique au lieu de déterministe. Dans ce cas, au lieu de retourner une action unique a, la politique renvoie une distribution de probabilité sur un ensemble d'actions.

En général, le but d'un algorithme RL est d'apprendre une politique optimale qui permettent d'atteindre un objectif spécifique.

OriginalL'auteur Pablo EM
4

Voici une brève réponse: une politique de la "pensée" de l'agent. C'est la cartographie de quand vous êtes dans un état s, l'action a si l'agent de prendre maintenant? Vous pouvez penser à des politiques comme une table de recherche:
```
state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7
```
Si vous êtes dans l'état 1, vous feriez (en supposant une gourmande de la stratégie) de sélection de l'action 1. Si vous êtes dans l'état 2, vous choisirez l'action 2.

OriginalL'auteur Martin Dinov

Vous devez vous connecter pour publier un commentaire.

Officiellement