DataMining Partie1 Introduction
Copyright © Génistat Conseils Inc., 2013, Montréal, Canada
1
TABLE des MATIÈRES
Data Mining = forage (fouille) des données
Partie 1
INTRODUCTION
Définition - Applications - Étapes
Méthodes - Références
Partie 2
ANN : Artificial Neural Network
Partie 3
CRT
Partie 4
MARS : Multivariate Adaptative Regression Splines
: Classification and Regression Tree
2
Copyright © Génistat Conseils Inc., 2010, Montréal, Canada
DÉFINITIONS du DATA MINING
Data Mining fouille de données, extraction de connaissances
KDD = Knowledge Data Discovery
est un nouveau champ d’application à l’interface de la statistique et des technologies de l’information
(bases de données, intelligence artificielle, apprentissage ,etc.)
U.M.Fayyad, G.Piatetski-Shapiro
« the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data »
D.J.Hand
« the discovery of interesting, unexpected, or valuable structures in large data sets »
3
Copyright © Génistat Conseils Inc., 2010, Montréal, Canada
DÉFINITIONS du DATA MINING
Exploration d’une grande quantité de données
(centaines de variables/milliers d’observations) en vue de rechercher des modèles relationnels entre des variables et ensuite de valider ces modèles en les appliquant sur de nouvelles données.
Art et la science d’obtenir de la connaissance à partir des données
OBJECTIFS
– identifier des structures, groupes, clusters, strates, ou dimensions dans les données qui ne semblent pas avoir de structures évidentes
– identifier des facteurs qui sont reliés à un résultat d’intérêt
(recherche d’un système de causes)
– prédire des variables d’intérêt (variables de réponse): nouveaux clients, nouveaux appliquants, etc
(data mining prédictif ou supervisé)
Processus de «torture des données» jusqu’à la «confession»
4
Copyright © Génistat Conseils Inc., 2010, Montréal, Canada
LES DONNÉES SONT PARTOUT ! : on est dans l’air du BIG DATA
Base