|
Bornes sur le risque en apprentissage supervisé| old_uid | 3079 |
|---|
| title | Bornes sur le risque en apprentissage supervisé |
|---|
| start_date | 2007/06/21 |
|---|
| schedule | 10h |
|---|
| online | no |
|---|
| location_info | salle 549 |
|---|
| summary | En apprentissage supervisé, on s’intéresse à des méthodes automatisées de diagnostiques. Étant un ensemble de fonctions (appelées classificateurs) qui est données a priori, et à partir d’exemples déjà classés d’un problème donné, on cherche à trouver le classificateur de notre ensemble qui est le plus capable de bien classer toutes les instances possibles de ce problème. Il est donc important ici d’avoir des garanties de performance. Plus précisément, il est important qu’on puisse avoir une borne sur le risque que ce classificateur choisi a de commettre des erreurs dans le future.
Une telle garantie, (appelée “borne sur l’ensemble test") est très simple à obtenir, moyennant de très faibles hypothèses. La grande difficulté cependant est d’arriver à construire des bornes qui soient à la fois serrées et valides simultanément pour l’ensemble des classificateurs. En effet, une borne sur le risque qui ne serait valide que pour un seul classificateur, ne pourra servir qu’une fois, qu’arrivera-t-il donc si par exemple le classificateur choisi n’a pas les performances escomptées? Si on décide d’en prendre un second, on ne pourra plus borner son risque.
Les bornes sur le risque qui sont valides simultanément pour tous les classificateurs de notre ensemble sont appelées “bornes sur l’ensemble d’entraînement". Nous verrons comment construire de telles bornes, mais surtout nous verrons qu’elles peuvent également servir à construire de nouveaux algorithmes d’apprentissage qui consisteront essentiellement à cherche le classificateur qui minimise la borne. De tels algorithmes existent déjà et sont très compétitifs, tout en ayant des temps d’exécution relativement faible. En effet, il est la plupart du temps bien moins long de trouver un minimum que de faire une sélection de modèle par la méthode dite de validation croisée. Ces algorithmes soulèvent à leurs tours une question naturelle: que faire lorsque plusieurs classificateur ont à peu près la même valeur de borne sur leurs risques? La réponse est simple, faisons un vote de majorité. Cependant, pouvons-nous avoir des bornes sur le risque qui soient valides simultanément pour tous les votes de majorités? La réponse est oui, mais il s’agit là d’une autre histoire qui fera le sujet d’une autre présentation. |
|---|
| oncancel | Nouveau |
|---|
| responsibles | Bouchon-Meunier, Diaz, Gallinari |
|---|
| |
|