Introduction data mining
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
1
Ricco Rakotomalala • ricco.rakotomalala@univ-lyon2.fr • http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels, …
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
2
Plan
1. Qu’est ce que le Data Mining ? 2. Spécificités du Data Mining 3. Quelques exemples 4. Typologie des méthodes de Data Mining 5. Ressources – Sites web et bibliographie
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
3
Une démarche plus qu’une théorie !
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
4
Exemple introductif : demande de crédit bancaire
• • • •
divorcé 5 enfants à charge chômeur en fin de droit compte à découvert
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
5
Expérience de l’entreprise : ses clients et leur comportement
• coûteuse en stockage • inexploitée
Comment et à quelles fins utiliser cette expérience accumulée
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
6
Le processus ECD (Extraction de connaissances à partir de données) KDD – Knowledge discovery in Databases
• Graphes d'Induction • Réseaux de neurones • Analyse discriminante • Régression logistique
• Echantillonnage • Préparation des données • Visualisation des données
• Tests statistiques • Re-échantillonnage
table
modèles
Connaissances
Bases de données
Fouille des données (Data mining)
Mise en forme des Connaissances
Déploiement Exploitation Définition : Processus non-trivial d ’identification de structures inconnues, valides et potentiellement exploitables dans les bases de données (Fayyad, 1996)
Equipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
7
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication