|
Apprentissage faiblement supervisé: algorithmes biqualité et détection automatisée d’exemples mal-étiquetés| title | Apprentissage faiblement supervisé: algorithmes biqualité et détection automatisée d’exemples mal-étiquetés |
|---|
| start_date | 2025/01/23 |
|---|
| schedule | 10h30 |
|---|
| online | no |
|---|
| location_info | salle 405, couloir 24-25, 4e ét. |
|---|
| summary | L’apprentissage faiblement supervisé regroupe une variété de situations où les données collectées sont imparfaites. Par exemple, les étiquettes collectées peuvent être corrompues, ne plus correspondre aux données les plus récentes (décalage de distribution), ou être disponibles en quantité insuffisante. Pour concevoir des algorithmes capables de gérer ces supervisions faibles, nous nous plaçons dans le cadre de l’apprentissage biqualité: nous supposons la disponibilité d’un petit ensemble de données de confiance, sans biais ni corruption, en plus de l’ensemble de données potentiellement corrompu. Dans ce cadre, nous présenterons des stratégies de repondération et de réétiquetage, ainsi qu’une stratégie lorsqu’on est en présence de décalages de distribution.
Pour autant, les algorithmes biqualités ont besoin d’avoir accès à un jeu de données fiables pour apprendre des classifieurs résistants aux potentielles corruptions du jeu de données non-fiables, exemples qui sont parfois couteux à obtenir dans des cas concrets. On s’intéressera à automatiser cette étape, en étudiant des méthodes automatiques de détection d’exemples mal-étiquetés. Ceux-ci fournissent un score de confiance pour chaque exemple du jeu données sur lequel ils sont appliqués, indiquant si l’étiquette fournie peut être considérée comme bonne ou mauvaise. Parmi ceux-ci, les détecteurs basés sur l’introspection examinent s’il existe une différence de traitement entre les exemples bien et mal-étiquetés lors de l’apprentissage, mesurées à l’aide de sondes sur un ensemble progressif ou indépendant de modèles. Après avoir passé en revu l’état de l’art dans ce cadre, nous testerons les détecteurs les plus populaires sur un ensemble de jeu de données tabulaires et textuels, et nous partagerons les enseignements tirés. |
|---|
| responsibles | Bouchon-Meunier |
|---|
Workflow history| from state (1) | to state | comment | date |
| submitted | published | | 2025/01/17 14:55 UTC |
| |
|