Bandit manchot Article, Signification, Explication
Le problème dit du bandit manchot peut se schématiser de la façon suivante :- On est en face de deux machines à sous
- L'une, A, est en ordre de marche. Elle rapporte donc 1 euro par jeton avec une probabilité p0 connue.
- L'autre, B, est détraquée, et rapporte donc 1 euro par jeton avec une probabilité p1 inconnue.
- On dispose de N jetons. Que faire pour maximiser raisonnablement son gain ?
| Table of contents |
|
2 Application pratique 3 Voir aussi |
Dégrossir le problème
Quelques considérations permettent d'éviter l'explosion combinatoire :
- Seule une mise sur B peut nous apporter de l'information et seul un apport d'information peut nous amener à changer d'avis. Donc dès qu'on cesse de miser sur B, on est certain de ne jamais avoir de raison de revenir sur elle.
- Le problème se résume en conséquence à savoir combien de jetons on misera sur B, en fonction des résultats, avant de commuter (définitivement) sur A ou non. C'est le problème classique du plan d'expérience.
