Systèmes de classeurs : étude de l'apprentissage latent


Thèse
Auteur(s) : GERARD, Pierre
Directeur(s) : Jean-Arcady Meyer
Date de soutenance : 2002
Intitulé de la formation :
Cote : T 0817
Résumé : Dans cette thèse, nous abordons la question de l'anticipation dans les systèmes de classeurs, pour résoudre des problèmes d’apprentissage par renforcement. Ces systèmes permettent d'apprendre incrémentalement des règles définissant la politique comportementale d'un agent, en utilisant la généralisation. Dès qu'un système dispose d'un modèle de son environnement, il devient capable d'anticiper les conséquences de ses actions, et d'apprendre une politique plus rapidement. Nous examinons ici comment les systèmes de classeurs peuvent être utilisés pour apprendre un tel modèle. En premier lieu, nous reprenons le formalisme du système ACS proposé par Stolzmann en 1998, nous en examinons les limites, puis nous en proposons un nouveau. Le système utilisant ce nouveau formalisme, MACS, utilise une architecture Dyna pour intégrer l'apprentissage d'un modèle de l'environnement et l'apprentissage d'une politique. Nous discutons de l'utilisation d'estimations et d'heuristiques dans les systèmes de classeurs, au lieu d'algorithmes génétiques. Nous concluons sur la possibilité de profiter de capacités d'anticipation sans utiliser des systèmes de classeurs spécifiquement dédiés à ce problème.
Mots clés : Systèmes de classeurs, anticipation, généralisation, apprentissage latent, apprentissage par renforcement