Optimale epsilon (ϵ-gourmand) valeur

ϵ-gourmand politique

Je sais que le Q-algorithme d'apprentissage doit essayer de trouver un équilibre entre exploration et exploitation. Depuis que je suis un débutant dans ce domaine, j'ai voulu mettre en place une version simple de l'exploration/exploitation de comportement.

Optimale de la valeur epsilon

Mon application utilise le ϵ gourmande en politique, mais je suis à une perte quand il s'agit de décider de la valeur epsilon. Si l'epsilon être limité par le nombre de fois que l'algorithme ont visité un donné (état, action) paire, ou devrait-il être limité par le nombre d'itérations effectuées?

Mes suggestions:

Inférieur à la valeur epsilon pour chaque fois qu'une donnée (état, action) de la paire a été rencontrées.
Inférieur à la valeur epsilon après une itération complète a été effectuée.
Inférieur à la valeur epsilon à chaque fois que nous rencontrons un état s.

Beaucoup apprécié!

Avez-vous fait des progrès dans ce sens? Avez-vous essayé de vos suggestions et de le comparer à la accepté de répondre? J'ai expérimenté avec constante positive epsilon et de la décomposition epsilon et a obtenu des résultats acceptables, mais je suis curieux de voir si le fait d'avoir epsilon en fonction du nombre de visites de l'actuelle (état, action) paire ne donnent pas un meilleur résultat. Il fait sens pour moi à seulement décroissance epsilon lors de l'examen d'un (état, action) paire l'agent a déjà visité plusieurs fois lors de la garder plus élevé pour un (état, action) de la paire de l'agent de ne jamais visisted encore.
Oui, j'ai essayé Regret minimization. Cela accélère la vitesse de convergence, mais au prix de ne pas toujours être en mesure de trouver la meilleure solution. À très grandes instances de problème, j'ai tendance à préférer le regret de minimisation approche puisque ce guide rapidement à la recherche de vers de meilleures solutions

OriginalL'auteur OccamsMan | 2014-04-02

20

Bien que dans de nombreux cas les plus simples de l'ek est conservé comme un nombre fixe dans la gamme de 0 et de 1, il faut savoir que:
Généralement, l'exploration diminue au fil du temps, de sorte que la stratégie utilisée asymptotiquement devient gourmand et donc (comme Qk → Q∗) optimale. Ceci peut être réalisé en faisant ek approche de 0 k augmente. Par exemple, une ε -avides d'exploration de l'annexe de la forme ek = 1/k diminue à 0 k → ∞, tout en répondant à la deuxième condition de convergence de Q-learning, c'est à dire, tout en permettant à un nombre infini de visites sur l'ensemble de l'état-action paires (Singh et coll., 2000).

Ce que je fais habituellement est ceci:
la alpha = 1/k (tenir compte de l'initiale k = 1 ou 2)
après vous allez à l'essai par essai que k augmente l'alpha va diminuer.
il conserve également la convergence de la garantie.

Aussi connu comme epsilon-désintégration.
qu'est-ce que k epsilon * k?
En fait, je crois que je comprends que k est le pas de temps ici. Mais ne vous désintégration alpha epsilon et optimale q d'apprentissage?
k est le pas de temps, c'est à dire ek est la kième ε. La décomposition de l'alpha est une bonne idée pour diminuer la taille du pas d'apprentissage (mise à jour des valeurs) pour éviter les sauts lors de la convergence de la valeur optimale. La désintégration des constantes peuvent être différents pour les deux termes.

OriginalL'auteur NKN
0

Il est généralement sage de simplement définir ε pour une constante positive, sauf si vous avez une bonne raison de ne pas.

Empiriquement: Ne devrait-il pas l'agent sera moins enclin à accepter l'exploration de la valeur Q de la table sont en train de converger vers la vraie transition tables? Exemple: un jeu de l'agent doit visez plutôt l'émergence de la stratégie parfaite au lieu de continuer à jouer pauvres se déplace (l'exploration).

OriginalL'auteur Don Reba

Vous devez vous connecter pour publier un commentaire.