Réseaux de neurones et auto-référence


Thèse
Auteur(s) : VOEGTLIN, Thomas
Directeur(s) : Peter F. Dominey et Hélène Paugam-Moisy
Date de soutenance : 2002
Intitulé de la formation :
Cote : T 0700
Résumé : La plupart de nos activités et comportements ont un aspect temporel, et requièrent un traitement séquentiel de l'information : séquences d'activités sensori-motrices, d'états internes ou de représentations symboliques. Cet aspect temporel est évident pour le langage ou la planification ; il est aussi essentiel à notre perception de la causalité. La manière dont l'ordre temporel est représenté par le cerveau reste hautement inexpliquée. Au niveau neuronal, l'utilisation de réseaux récurrents permet de représenter le temps de manière implicite, par les effets qu'il a sur les calculs. Cependant, il est difficile de trouver des algorithmes d'apprentissage pour ces réseaux. Le but de cette thèse est d'étudier une classe d'algorithmes non supervisés pour réseaux récurrents. Dans la première partie (chapitres 1 à 4), je présente plusieurs algorithmes, basés sur un même principe d'apprentissage : l'auto-référence. L'apprentissage auto-référent n'implique pas l'optimisation d'un critère objectif (comme une fonction d'erreur), mais il fait intervenir une fonction subjective, qui dépend de ce que le réseau a déjà appris. Un exemple de réseau supervisé basé sur ce principe est le Simple Recurrent Network d'Elman (1990). Dans ce cas, l'auto-référence est appliquée à l'algorithme de rétro-propagation du gradient. Sur ce point, le réseau d'Elman diffère des autres méthodes de rétro-propagation pour réseaux récurrents, qui font intervenir un gradient objectif (Back-Propagation Through Time, Real-Time Recurrent Learning). Je montre que l'auto-référence peut être utilisée avec les principales techniques d'apprentissage non-supervisé : Cartes de Kohonen (Self-Organizing Map, ou SOM), Analyse en Composantes principales (ACP), Analyse en Composantes Indépendantes (ACI). Ces techniques sont classiquement utilisées pour représenter des données statiques. L'auto-référence permet de les généraliser à des séries temporelles, et de définir des algorithmes d'apprentissage nouveaux. Une propriété intéressante de l'ACP généralisée à des réseaux récurrents est qu'elle permet d'implémenter une pile logique. Cette propriété a des implications concernant les réseaux de neurones en tant que modèle de calcul, le traitement connexioniste du langage, ou les représentations complexes par réseaux de neurones. Dans la deuxième partie de cette thèse (chapitres 5 à 7), ces implications sont étudiées. L' ACP est utilisée dans une architecture dite de mémoire auto-associative récursive (Recursive-Auto-Associative Memory, RAAM). Je démontre que les inconvénients du modèle RAAM classique (généralisation faible, représentations non-systématiques) sont évités en utilisant l'ACP à la place de la rétro-propagation.
Mots clés :