Processus de décision markovienne
Sommaire * Introduction * 1 Définition * 1.1 Définition intuitive * 1.2 Hypothèse de Markov * 1.3 Définition formelle * 1.4 Exemple de MDP * 1.5 Remarques * 2 Notion de politique * 3 Problèmes possibles * 4 Références |
Introduction
Le modèle des processus décisionnels de Markov (MDP) est un modèle très étudié en intelligence artificielle. Il offre un formalisme pour modéliser et résoudre des problèmes de planification dans l’incertain.
Son exploitation peut parfois poser problème dans la mesure où il nécessite la connaissance précise de ses paramètres (probabilités de transition et récompenses). Dans de nombreuses situations réelles, ceux-ci ne sont connus que de manière imprécise car il peut être difficile ou coûteux, voire impossible, de les déterminer de manière exacte.
Les solutions d’un MDP pouvant bien entendu être très sensibles à ces paramètres, souvent il est délicat de fixer ses valeurs.
Un processus de décision markovien (MDP) est un modèle stochastique issu de la théorie de la décision et de la théorie des probabilités. Le modèle MDP peut être vu comme une chaîne de Markov à laquelle on ajoute une composante décisionnelle. Comme les autres modèles de sa famille, il est entre autres, utilisé en intelligence artificielle pour le contrôle de systèmes complexes comme des agents intelligents.
Un MDP permet de prendre des décisions dans un environnement : * lorsque l'on a une certitude sur l'état dans lequel on se trouve * en présence d'incertitude sur l'effet des actions.
1-Définition
Cycle de contrôle d'un processus de décision markovien
1.1-Définition intuitive
Les processus décisionnels de Markov sont définis comme des processus stochastiques contrôlés satisfaisant la propriété de Markov, assignant des récompenses aux transitions d’états [BER 87, PUT 94]. On les définit par un quintuplait :
(S, A, T, p, r) où :
– S est l’espace d’états dans lequel