|
Boosting itéré pour la détection de données aberrantesold_uid | 1616 |
---|
title | Boosting itéré pour la détection de données aberrantes |
---|
start_date | 2006/10/13 |
---|
schedule | 11h |
---|
online | no |
---|
summary | Une procédure de détection de valeurs aberrantes dans les problèmes de régression est proposée. Basée sur l'information fournie par le boosting d'arbres de régression CART, l'idée maîtresse consiste à sélectionner l'observation la plus fréquemment rééchantillonnée au cours des itérations du boosting puis de recommencer après l'avoir retirée. Le critère de sélection est basée sur l'application de l'inégalité de Tchebychev au maximum, au cours des itérations du boosting, du nombre moyen d'apparitions dans les échantillons bootstrap. En particulier, la procédure ne fait pas d'hypothèse sur la distribution du bruit et sélectionne les valeurs aberrantes comme des observations particulièrement difficiles à prévoir. On considère un grand nombre de jeux de données réelles ou artificielles et une étude comparative avec des méthodes
éprouvées en montre l'intérêt.
Cet exposé est issu de :
- Cheze N., Poggi J-M., "Outlier Detection by Boosting Regression Trees", Preprint Orsay, 2005-17, 23 p.
- Cheze N., Poggi J-M., "Iterated boosting for outlier detection", Data Science and Classification, Proceedings IFCS06, Springer, 213-221, 2006 |
---|
responsibles | Carlo, Bardet, Cottrell |
---|
| |
|