Qu'est ce qu'une politique de renforcement de l'apprentissage?
J'ai vu des mots tels que:
Une stratégie définit l'apprentissage de l'agent façon de se comporter à un moment donné. Environ
en parlant, d'une politique et d'une cartographie de la part des états de l'environnement pour les mesures à prendre lorsque dans ces états.
Mais encore ne comprennent pas entièrement. Est-ce qu'une politique de renforcement de l'apprentissage?
OriginalL'auteur Alexander Cyberman | 2017-09-17
Vous devez vous connecter pour publier un commentaire.
La définition est correcte, mais pas immédiatement évident, si vous le voyez pour la première fois. Permettez-moi de le dire de cette manière: d'une politique et d'un agent de la stratégie.
Par exemple, imaginez un monde où un robot se déplace à travers la salle et la tâche est d'arriver à la cible point (x, y), où il obtient une récompense. Ici:
Un politique est ce qu'un agent ne pour accomplir cette tâche:
Évidemment, certains politiques sont mieux que d'autres, et il y a de multiples façons de les évaluer, à savoir de l'état de la valeur de la fonction et action-valeur de la fonction. L'objectif de RL est d'apprendre la meilleure politique. Maintenant, la définition devrait faire plus de sens (à noter que dans le contexte du temps est mieux comprise comme un état):
Une stratégie définit l'apprentissage de l'agent façon de se comporter à un moment donné.
Officiellement
Plus formellement, nous devons d'abord définir de Markov, Processus de prise de Décision (MDP), un tuple (
S
,A
,P
,R
,y
), où:S
est un ensemble fini d'étatsA
est un ensemble fini d'actionsP
est un état de transition matrice de probabilité (la probabilité de se retrouver dans un état pour chaque état actuel et chaque action)R
est une fonction de récompense, étant donné un état et une actiony
est un facteur d'actualisation, entre 0 et 1Ensuite, une politique
π
est une distribution de probabilité sur les actions des états donnés. C'est la probabilité de chaque action lorsqu'un agent est dans un état particulier (bien sûr, je ne m'attarde pas beaucoup de détails ici). Cette définition correspond à la deuxième partie de votre définition.Je recommande fortement David Silver RL cours disponible sur YouTube. Les deux premières conférences mettent l'accent en particulier sur les MDPs et politiques.
OriginalL'auteur Maxim
En clair, dans le cas le plus simple, une politique
π
est une fonction qui prend en entrée un états
et retourne une actiona
. Qui est:π(s) → a
De cette manière, la politique est généralement utilisé par l'agent pour décider de l'action qu'
a
doit être effectué quand il est dans un état donnés
.Parfois, la politique peut être stochastique au lieu de déterministe. Dans ce cas, au lieu de retourner une action unique
a
, la politique renvoie une distribution de probabilité sur un ensemble d'actions.En général, le but d'un algorithme RL est d'apprendre une politique optimale qui permettent d'atteindre un objectif spécifique.
OriginalL'auteur Pablo EM
Voici une brève réponse: une politique de la "pensée" de l'agent. C'est la cartographie de quand vous êtes dans un état
s
, l'actiona
si l'agent de prendre maintenant? Vous pouvez penser à des politiques comme une table de recherche:Si vous êtes dans l'état 1, vous feriez (en supposant une gourmande de la stratégie) de sélection de l'action 1. Si vous êtes dans l'état 2, vous choisirez l'action 2.
OriginalL'auteur Martin Dinov