Dataminig

3833 mots 16 pages

Introduction au Data Mining et à l’apprentissage statistique

Gilbert Saporta

Chaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Paris gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta

Plan
1. Qu’est-ce que le data mining? 2. Trois méthodes emblématiques
2.1 Règles d’associations 2.2 Arbres de décision 2.3 Scoring

3. Performance des méthodes de prévision 4. Construction et choix de modèles: théorie de l’apprentissage 5. Le DM, une nouvelle conception de la statistique et du rôle des modèles
SFC 2010 2

1. Qu’est-ce que le data mining?
Le Data Mining est un nouveau champ situé au croisement de la statistique et des technologies de l’information (bases de données, intelligence artificielle, apprentissage etc.) dont le but est de découvrir des structures dans de vastes ensembles de données.
Deux types: modèles et « patterns » (ou comportements)
(D.Hand)

SFC 2010

3

1.1 Définitions: U.M.Fayyad, G.Piatetski-Shapiro : “ Data Mining is

the nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data ” D.J.Hand : “ I shall define Data Mining as the discovery of interesting, unexpected, or valuable structures in large data sets”

SFC 2010

4

La métaphore du Data Mining signifie qu’il y a des trésors ou pépites cachés sous des montagnes de données que l’on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d’autres fins: c’est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles (Kardaun, T.Alanko,1998) Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d’expériences) (Hand, 2000)
SFC 2010 5

SFC 2010

6

Est-ce nouveau? Est-ce une révolution ?
L’idée de découvrir des faits à partir des données est aussi vieille que la statistique “Statistics is the

science of learning from data. Statistics is

en relation

Cned veille opérationelle
1895 mots | 8 pages

Il s'agit de la parole des experts. | DOCUMENT B | Pertinence | Ce document n'est pas riche en informations puisqu'il traite de l'emballage et ses effets sur le corps humain et l'environnement. Nous pouvons receuillir ces informations sur le site internet emballagesmagazine.com en format pdf.….

montre plus
Dellbard
386 mots | 2 pages

• clientèle : 4 principaux canaux de distribution de sa production végétale : 1/ Les circuits professionnels France et Export (distributeurs spécialisés, centrales d’achat telles que GSB et réseaux de distribution indépendants / 1.200 clients en France et 250 clients à l’export). 2/ Le réseau de jardineries à enseigne DELBARD. 3/ Les arboriculteurs (150 clients environ). 4/ La vente à distance.….

montre plus
DATA MINI MININGNG
2144 mots | 9 pages

DATA MININGPartie 1 de 1 - 62.0 / 100.0 Points Question 1 de 1010.0 Points En vos mots, veuillez énoncer la différence entre les modèles non-supervisés et supervisés. Le modèle supervisé possède une ou des variables cible définie ex: classification, régression linéaire ou logistique comparativement au modèle non supervisé qui ne possède pas de variable cible définie Question 2 de 1010.0 Points….

montre plus
Aide livrable bts nrc
280 mots | 2 pages

La collecte et le stockage des donnés Les informations collectées sont stockées dans le DATAWAREHOUSE (entrepôt de données). Le DATAWAREHOUSE est un système centralisé afin de rendre l’information cohérente et accessible. Comment collecter les infos : • enquêtes • cartes de fidélité • ticket de caisse • reporting (remonté des informations des représentants sur le terrain) Le Datamining c’est l’analyse des données fournies par le DATAWAREHOUSE en vue de les transformer en informations.….

montre plus
Mithridate
16189 mots | 65 pages

MITHRIDATE De Jean Racine. Personnages MITHRIDATE, roi de Pont, et de quantité d'autres royaumes. MONIME, accordée avec Mithridate, et déjà déclarée reine. PHARNACE et XIPHARÈS, fils de Mithridate, mais de différentes mères. ARBATE, confident de Mithridate, et gouverneur de la place de Nymphée.….

montre plus
ines
805 mots | 4 pages

Les sorties caisses sont, elles, compilées à l'aide d'une base de données (datawarehouse). Le croisement de ces deux informations permet d'analyser la pertinence d'une offre (assortiment actuel) ainsi que sa performance relative. La révision d'assortiment est un exercice au mieux mensuel et dans la plupart des cas….

montre plus
La logoque de l'honneur
2649 mots | 11 pages

La mise en parallèle des informations collectées sur les….

montre plus
Rapport de stage 3ème
1143 mots | 5 pages

En Effet, j’ai découvert le domaine du data Consulting et de l’entretien de données j’ai même découvert comment gérer les données utilisateur d’un client chez une entreprise cependant j’ai aussi appris sur moi-même que pour moi il était assez difficile de me tourner vers les autres pour demander de l’aide ou des conseils, ce stage a parfaitement répondu à mes attentes et j’en suis satisfait. · Impressions personnelles / Bilans· En conclusion, durant ce stage j’ai découvert la vie dans le monde du travail et cela m’a permis de rajouter une option possible dans mes futures études, ce stage m’a permis de consolider et d’utiliser mes compétences en compréhension orale en anglais pour comprendre la plupart des choses sur lequel nous avons travaillé durant ce stage. Les clients, les….

montre plus
Mithridate
1934 mots | 8 pages

Mithridate – Acte I, Scène 2. Monime, Xipharès Monime Seigneur, je viens à vous, car enfin aujourd'hui Si vous m'abandonnez, quel sera mon appui ? Sans parents, sans amis, désolée et craintive, Reine longtemps de nom, mais en effet captive, Et veuve maintenant sans avoir eu d'époux,….

montre plus
La pauvreté des enfants en france
916 mots | 4 pages

L’appareil statistique est un système d’information alimenté par différentes sources dont l’objectif est de fournir des statistiques officielles en France comme par exemple : l’INSEE. L’appareil statistique n’est pas le seul moyen de mesurer la pauvreté des enfants, on va également s’intéresser au….

montre plus
coucou
1087 mots | 5 pages

Ils doivent aussi être informés du but de la collecte d’information les concernant. Afin d’éviter ces pratiques….

montre plus
Distribution léo
7206 mots | 29 pages

Nous soumettrons un questionnaire de 20 questions à notre échantillon, composé de 100 personnes. L’ensemble des données statistiques sera soumis à une analyse via le logiciel de statistiques : SPSS. La collecte d’informations secondaires : La recherche d’informations secondaire….

montre plus
Infortique
39721 mots | 159 pages

Gatineau (Québec) J8X 4C2 Téléphone : (819) 772-3022….

montre plus
Mithridate
1242 mots | 5 pages

Racine (1639-1699) est l’une des figures importantes du théâtre français au XVIIème siècle. C’est un auteur représentatif du genre de la tragédie, à l’exemple de Corneille, son rival, à qui il prend la 1ère place dans la vie théâtrale de l’époque en s’attirant les grâces du Roi et des courtisans, l’approbation des doctes ainsi que l’enthousiasme du public. Pourtant au départ, sa première pièce La Thébaïde (1664), n’obtient qu’un maigre succès . C’est avec Andromaque en 1668 et Bérénice en 1671 que viennent les premiers grands succès durables. Mithridate, joué pour la 1ère fois le 13 janvier 1673 par la troupe de l’Hôtel de Bourgogne, apparaît donc comme l’œuvre d’un auteur parvenu au summum de sa gloire.….

montre plus
Chiffres europe 2010
100326 mots | 402 pages

ISSN 1560-490X Livres statistiques L’Europe en chiffres L’annuaire d’Eurostat 2010 Livres statistiques L’Europe en chiffres L’annuaire d’Eurostat 2010 Europe Direct est un service destiné à vous aider à trouver des réponses aux questions que vous vous posez sur l’Union européenne. 00 800 6 7 8 9 10 11….

montre plus