Des techniques d'apprentissage statistique face à la complexité des données d'expression génomiques ou industrielles

old_uid2217
titleDes techniques d'apprentissage statistique face à la complexité des données d'expression génomiques ou industrielles
start_date2007/02/09
schedule11h
onlineno
summaryLes données industrielles et biologiques, notamment en post génomique (transcriptomique, protéomique...), posent des défis difficiles à la Statistique, essentiellement pour des questions de très grande dimension au regard de la taille des échantillons : des centaines voire milliers de variables observées sur quelques dizaines ou au mieux centaines de cas. Dans cette situation, les techniques usuelles de modélisation, très sensibles au sur ajustement, se montrent inutilisables lorsqu'il s'agit de contrôler la complexité du modèle par des procédures de sélection. Celles par régularisation (ridge) ou par projection (PLS) peuvent conduire à des résultats mais pas toujours très efficaces. On se propose d'introduire des approches alternatives relativement récentes, proposées en terme d'agrégation de modèles (bagging, boosting), et d'en illustrer l'utilisation dans des situations plus ou moins complexes afin d'en comparer les performances. Une approche heuristique est donc ici préférée bien que de nombreux travaux théoriques en cours cherchent à justifier le bon comportement de ces algorithmes.
responsiblesCarlo, Bardet, Cottrell