Lissage de spline
DE ´ S TATISTIQUE ET P ROBABILIT E S
Data mining ´ II. Modelisation Statistique & Apprentissage
P HILIPPE B ESSE
Version mars 2005 — mises a jour : www.lsp.ups-tlse.fr/Besse ` Laboratoire de Statistique et Probabilit´ s — UMR CNRS C5583 e Universit´ Paul Sabatier — 31062 – Toulouse cedex 4. e
2
Chapitre 1 Introduction
1 Objectif
D` s qu’un ph´ nom` ne, qu’il soit physique, biologique ou autre, est trop complexe ou encore trop bruit´ e e e e ` pour acc´ der a une description analytique d´ bouchant sur une mod´ lisation d´ terministe, un ensemble d’ape e e e ´e´ ` proches ont et´ elabor´ es afin d’en d´ crire au mieux le comportement a partir d’une s´ rie d’observations. e e e Citons la reconnaissance de la parole ou de caract` res manuscrits, l’imagerie m´ dicale ou satellitaire, la e e ´ pr´ vision d’une grandeur climatique ou economique, du comportement d’un client. . . la plupart des discie plines scientifiques sont concern´ es. Historiquement, la Statistique s’est beaucoup d´ velopp´ e autour de e e e ce type de probl` mes et a propos´ des mod` les incorporant d’une part des variables explicatives et, d’autre e e e part, une composante al´ atoire ou bruit. Il s’agit alors d’estimer les param` tres du mod` le a partir des obsere e e ` vations. Dans la mˆ me situation, la communaut´ informatique parle plutˆ t d’apprentissage visant le mˆ me e e o e objectif. Apprentissage machine (machine learning) ou reconnaissance de forme (pattern recognition) en sont les principaux mots-clefs.
2 Probl´ matique e
2.1 Supervis´ vs. non-supervis´ e e
` Distinguons deux types de probl` mes : la pr´ sence ou non d’une variable a expliquer Y ou d’une forme e e ` ´e a reconnaˆtre qui a et´ , conjointement avec X, observ´ e sur les mˆ mes objets. Dans le premier cas il s’agit ı e e bien d’un probl` me de mod´ lisation ou apprentissage supervis´ : trouver une fonction φ susceptible, au e e e mieux selon un crit` re a d´ finir, de