Detection et filtrage des outliers
CNAM
Detection et filtrage des outliers ` l’aide de la th´orie a e des valeurs extrˆmes e
Quentin Amelot Nicolas Sibille 12 septembre 2011
Responsable de projet : Michel Bera
R´sum´ e e
Le but du present papier est d’´tudier un test d’hypoth`se permettant de e e filtrer les outlier pr´sents dans une s´rie d’observation. Ce test est ind´pendant e e e de la fonctions de distribution par laquelle les observations on ´t´ g´n´r´es. ee e ee Ce test est bas´ sur la th´orie de valeurs extr`mes que l’on pr´sente dans une e e e e premi`re partie. Enfin on introduira un algorithme permettant de filtrer les e outliers.
1
Table des mati`res e
1 Introduction 2 La th´orie des valeurs extrˆmes e e 2.1 Pr´sentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 2.2 Cadre d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Th´or`me de Fisher-Tippet-Gnedenko . . . . . . . . . . . . . . e e 3 D´tection des outliers dans le cas d’une queue de distribution e ` d´croissance exponentielle a e 3.1 Test d’hypoth`se . . . . . . . . . . . . . . . . . . . . . . . . . e 3.2 Puissance du test . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Estimateurs de an et bn . . . . . . . . . . . . . . . . . . . . . . 4 D´tection des outliers dans le cas d’une queue de distribution e ` d´croissance polynomiale a e 4.1 test d’hypoth`se . . . . . . . . . . . . . . . . . . . . . . . . . . e 4.2 Estimation de an et bn . . . . . . . . . . . . . . . . . . . . . . 4.3 estimation de ξ . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Algorithme de d´tection des outliers e 6 Conclusion 4 5 5 5 5 10 10 11 11 13 13 15 16 17 18
2
Table des figures
1 2 3 4 Distribution de Gumbel . . . . . . . . . . . . . . . . . . . . Distribution de frechet pour differentes valeurs de ξ . . . . . Comparaison des queues de disitributions de la loi Pareto et de la loi exponentielle . . . . . . . . . . . . . . . . . . . . . . Comparaison de la distribution