Boosting itéré pour la détection de données aberrantes

old_uid1616
titleBoosting itéré pour la détection de données aberrantes
start_date2006/10/13
schedule11h
onlineno
summaryUne procédure de détection de valeurs aberrantes dans les problèmes de régression est proposée. Basée sur l'information fournie par le boosting d'arbres de régression CART, l'idée maîtresse consiste à sélectionner l'observation la plus fréquemment rééchantillonnée au cours des itérations du boosting puis de recommencer après l'avoir retirée. Le critère de sélection est basée sur l'application de l'inégalité de Tchebychev au maximum, au cours des itérations du boosting, du nombre moyen d'apparitions dans les échantillons bootstrap. En particulier, la procédure ne fait pas d'hypothèse sur la distribution du bruit et sélectionne les valeurs aberrantes comme des observations particulièrement difficiles à prévoir. On considère un grand nombre de jeux de données réelles ou artificielles et une étude comparative avec des méthodes éprouvées en montre l'intérêt. Cet exposé est issu de : - Cheze N., Poggi J-M., "Outlier Detection by Boosting Regression Trees", Preprint Orsay, 2005-17, 23 p. - Cheze N., Poggi J-M., "Iterated boosting for outlier detection", Data Science and Classification, Proceedings IFCS06, Springer, 213-221, 2006
responsiblesCarlo, Bardet, Cottrell