Sélection de variables par information mutuelle et rééchantillonnage

old_uid2301
titleSélection de variables par information mutuelle et rééchantillonnage
start_date2007/02/23
schedule11h
onlineno
summaryFace à des problèmes de classification ou de régression où le nombre de variables est important, il est souvent essentiel d'adopter une stratégie efficace de sélection de ces variables, dans deux buts: d'une part améliorer les propriétés des modèles construits sur les variables, pour diminuer les effets de la "malédiction de la dimensionnalité", et d'autre part pour aider à l'interprétation des modèles construits, afin d'identifier les variables responsables des phénomènes modélisés. Dans le cas d'une modélisation non-linéaire, l'information mutuelle est souvent utilisée comme critère de pertinence de variables. L'information mutuelle est un critère qui mesure une relation de façon non-linéaire, sans faire d'hypothèse paramétrique, et peut facilement être étendu à des groupes de variables, ce qui est essentiel dans des procédures de sélection de type "greedy" (procédures itératives "forward", "forward-backward", etc.). Malheureusement, l'information mutuelle n'est pas aisée à estimer sur des échantillons de taille finie, surtout lorsque le nombre de variables augmente. Des estimateurs plus robustes que de simples histogrammes ou noyaux ont été proposés, en se basant sur des approches de plus proches voisins. Néanmoins, ils requièrent l'ajustement délicat d'hyper-paramètres. Cet exposé présentera d'abord la technique de sélection de variables par information mutuelle. La spectroscopie infrarouge illustrera l'intérêt d'une telle approche, dans le cas de données fonctionnelles, aussi bien dans un but de performance que pour accroître l'interprétabilité des modèles. Ensuite, des méthodes de rééchantillonnage (validation croisée et test de permutation) seront utilisées afin de déterminer de façon automatique les hyper-paramètres des estimateurs.
responsiblesCarlo, Bardet, Cottrell