Dataminig
Gilbert Saporta
Chaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Paris gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta
Plan
1. Qu’est-ce que le data mining? 2. Trois méthodes emblématiques
2.1 Règles d’associations 2.2 Arbres de décision 2.3 Scoring
3. Performance des méthodes de prévision 4. Construction et choix de modèles: théorie de l’apprentissage 5. Le DM, une nouvelle conception de la statistique et du rôle des modèles
SFC 2010 2
1. Qu’est-ce que le data mining?
Le Data Mining est un nouveau champ situé au croisement de la statistique et des technologies de l’information (bases de données, intelligence artificielle, apprentissage etc.) dont le but est de découvrir des structures dans de vastes ensembles de données.
Deux types: modèles et « patterns » (ou comportements)
(D.Hand)
SFC 2010
3
1.1 Définitions: U.M.Fayyad, G.Piatetski-Shapiro : “ Data Mining is
the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data ” D.J.Hand : “ I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets”
SFC 2010
4
La métaphore du Data Mining signifie qu’il y a des trésors ou pépites cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles (Kardaun, T.Alanko,1998) Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences) (Hand, 2000)
SFC 2010 5
SFC 2010
6
Est-ce nouveau? Est-ce une révolution ?
L’idée de découvrir des faits à partir des données est aussi vieille que la statistique “Statistics is the
science of learning from data. Statistics is