Dataminig

3833 mots 16 pages
Introduction au Data Mining et à l’apprentissage statistique

Gilbert Saporta

Chaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Paris gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta

Plan
1. Qu’est-ce que le data mining? 2. Trois méthodes emblématiques
2.1 Règles d’associations 2.2 Arbres de décision 2.3 Scoring

3. Performance des méthodes de prévision 4. Construction et choix de modèles: théorie de l’apprentissage 5. Le DM, une nouvelle conception de la statistique et du rôle des modèles
SFC 2010 2

1. Qu’est-ce que le data mining?
Le Data Mining est un nouveau champ situé au croisement de la statistique et des technologies de l’information (bases de données, intelligence artificielle, apprentissage etc.) dont le but est de découvrir des structures dans de vastes ensembles de données.
Deux types: modèles et « patterns » (ou comportements)
(D.Hand)

SFC 2010

3

1.1 Définitions: U.M.Fayyad, G.Piatetski-Shapiro : “ Data Mining is

the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data ” D.J.Hand : “ I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets”

SFC 2010

4

La métaphore du Data Mining signifie qu’il y a des trésors ou pépites cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles (Kardaun, T.Alanko,1998) Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences) (Hand, 2000)
SFC 2010 5

SFC 2010

6

Est-ce nouveau? Est-ce une révolution ?
L’idée de découvrir des faits à partir des données est aussi vieille que la statistique “Statistics is the

science of learning from data. Statistics is

en relation

  • Cned veille opérationelle
    1895 mots | 8 pages
  • DATA MINI MININGNG
    2144 mots | 9 pages
  • Dellbard
    386 mots | 2 pages
  • Mithridate
    1242 mots | 5 pages
  • La logoque de l'honneur
    2649 mots | 11 pages
  • Mithridate
    16189 mots | 65 pages
  • Rapport de stage 3ème
    1143 mots | 5 pages
  • ines
    805 mots | 4 pages
  • Mithridate
    1934 mots | 8 pages
  • La pauvreté des enfants en france
    916 mots | 4 pages
  • Distribution léo
    7206 mots | 29 pages
  • fiche pays
    255 mots | 2 pages
  • coucou
    1087 mots | 5 pages
  • Infortique
    39721 mots | 159 pages
  • Chiffres europe 2010
    100326 mots | 402 pages