Optimale epsilon (ϵ-gourmand) valeur

ϵ-gourmand politique

Je sais que le Q-algorithme d'apprentissage doit essayer de trouver un équilibre entre exploration et exploitation. Depuis que je suis un débutant dans ce domaine, j'ai voulu mettre en place une version simple de l'exploration/exploitation de comportement.

Optimale de la valeur epsilon

Mon application utilise le ϵ gourmande en politique, mais je suis à une perte quand il s'agit de décider de la valeur epsilon. Si l'epsilon être limité par le nombre de fois que l'algorithme ont visité un donné (état, action) paire, ou devrait-il être limité par le nombre d'itérations effectuées?

Mes suggestions:

  1. Inférieur à la valeur epsilon pour chaque fois qu'une donnée (état, action) de la paire a été rencontrées.
  2. Inférieur à la valeur epsilon après une itération complète a été effectuée.
  3. Inférieur à la valeur epsilon à chaque fois que nous rencontrons un état s.

Beaucoup apprécié!

Avez-vous fait des progrès dans ce sens? Avez-vous essayé de vos suggestions et de le comparer à la accepté de répondre? J'ai expérimenté avec constante positive epsilon et de la décomposition epsilon et a obtenu des résultats acceptables, mais je suis curieux de voir si le fait d'avoir epsilon en fonction du nombre de visites de l'actuelle (état, action) paire ne donnent pas un meilleur résultat. Il fait sens pour moi à seulement décroissance epsilon lors de l'examen d'un (état, action) paire l'agent a déjà visité plusieurs fois lors de la garder plus élevé pour un (état, action) de la paire de l'agent de ne jamais visisted encore.
Oui, j'ai essayé Regret minimization. Cela accélère la vitesse de convergence, mais au prix de ne pas toujours être en mesure de trouver la meilleure solution. À très grandes instances de problème, j'ai tendance à préférer le regret de minimisation approche puisque ce guide rapidement à la recherche de vers de meilleures solutions

OriginalL'auteur OccamsMan | 2014-04-02