search

actions - event

state: published
- cancelpublished
- view workflow

Boosting itéré pour la détection de données aberrantes

old_uid	1616
title	Boosting itéré pour la détection de données aberrantes
start_date	2006/10/13
schedule	11h
online	no
summary	Une procédure de détection de valeurs aberrantes dans les problèmes de régression est proposée. Basée sur l'information fournie par le boosting d'arbres de régression CART, l'idée maîtresse consiste à sélectionner l'observation la plus fréquemment rééchantillonnée au cours des itérations du boosting puis de recommencer après l'avoir retirée. Le critère de sélection est basée sur l'application de l'inégalité de Tchebychev au maximum, au cours des itérations du boosting, du nombre moyen d'apparitions dans les échantillons bootstrap. En particulier, la procédure ne fait pas d'hypothèse sur la distribution du bruit et sélectionne les valeurs aberrantes comme des observations particulièrement difficiles à prévoir. On considère un grand nombre de jeux de données réelles ou artificielles et une étude comparative avec des méthodes éprouvées en montre l'intérêt. Cet exposé est issu de : - Cheze N., Poggi J-M., "Outlier Detection by Boosting Regression Trees", Preprint Orsay, 2005-17, 23 p. - Cheze N., Poggi J-M., "Iterated boosting for outlier detection", Data Science and Classification, Proceedings IFCS06, Springer, 213-221, 2006
responsibles	Carlo, Bardet, Cottrell

hosted_by

Centre Pierre Mendès-France

speakers

event_of

Mathématiques des systèmes complexes (équipes Marin Mersenne et Samos) (2006)

Event #155107 - latest update on 2022/05/17, created on 2006/10/10