De Markov, Processus de prise de Décision: la valeur de l'itération, comment ça fonctionne?

J'ai lu beaucoup de choses sur De Markov, Processus de Décision (à l'aide de la valeur de l'itération) dernièrement, mais je ne peux pas obtenir ma tête autour d'eux. J'ai trouvé beaucoup de ressources sur Internet /livres, mais ils ont tous l'utilisation de formules mathématiques qui sont bien trop complexe pour mes compétences.

Puisque c'est ma première année au collège, j'ai trouvé que les explications et les formules fournies sur le web, utiliser les notions et les termes qui sont trop compliqué pour moi et ils supposent que le lecteur sait certaines choses que je n'ai tout simplement jamais entendu parler.

Je veux l'utiliser sur une grille 2D (rempli avec des murs(inaccessible), des pièces de monnaie(souhaitable) et les ennemis qui se déplacent(qui doit être évité à tous les frais)). L'objectif est de collecter toutes les pièces sans toucher les ennemis, et je veux créer une IA pour le joueur principal à l'aide d'un Processus de Décision de Markov (MDP). Voici comment il a partiellement ressemble (à noter que le jeu liés à l'aspect n'est pas tellement un souci ici. J'ai juste très envie de comprendre MDPs en général):

De Markov, Processus de prise de Décision: la valeur de l'itération, comment ça fonctionne?

De ce que je comprends, une grossière simplification de MDPs est qu'ils peuvent créer une grille qui tient dans quelle direction nous devons aller (une sorte de grille de "flèches" pointant vers où nous devons aller, départ à une certaine position sur la grille) pour arriver à certains objectifs et d'éviter certains obstacles. Spécifique à ma situation, cela voudrait dire qu'il permet au joueur de savoir dans quelle direction aller ramasser les pièces et éviter les ennemis.

Maintenant, à l'aide de la MDP termes, cela voudrait dire qu'il crée un ensemble d'états(la grille) qui détient un certain nombre de politiques(l'action à exécuter -> en haut, en bas, à droite, à gauche) pour un certain état(position sur la grille). Les politiques sont déterminées par l ' "utilité" des valeurs de chaque etat, qui sont eux-mêmes calculés en évaluant combien y arriver serait bénéfique à court et à long terme.

Est-ce correct? Ou suis-je complètement sur la mauvaise voie?

J'aimerais au moins savoir ce que les variables de l'équation suivante représenter dans ma situation:

De Markov, Processus de prise de Décision: la valeur de l'itération, comment ça fonctionne?

(tiré du livre "l'Intelligence Artificielle - Une Approche Moderne" de Russell & Norvig)

Je sais que s serait une liste de tous les carrés de la grille, a serait une action spécifique (haut /bas /droite /gauche), mais quid du reste?

Quelle serait la récompense et les fonctions de l'utilitaire de mise en œuvre?

Ce serait vraiment génial si quelqu'un connaissait un simple lien qui montre le pseudo-code pour implémenter une version de base avec des similitudes avec ma situation dans un très lent, parce que je ne sais même pas par où commencer ici.

Je vous remercie pour votre temps précieux.

(Note: n'hésitez pas à ajouter /supprimer des balises ou me dire dans les commentaires si je devrais donner plus de détails à propos de quelque chose ou quelque chose comme ça.)

  • Puis-je vous demander pourquoi le downvote? Je voudrais savoir quel est le problème avec la question. Je vous remercie.
InformationsquelleAutor Jesse Emond | 2011-12-01