Web minig

Disponible uniquement sur Etudier
  • Pages : 15 (3645 mots )
  • Téléchargement(s) : 0
  • Publié le : 25 novembre 2011
Lire le document complet
Aperçu du document
Stéphane Tufféry

DATA MINING
& STATISTIQUE DÉCISIONNELLE

25/12/2006

© Stéphane Tufféry - Data Mining - http://data.mining.free.fr

1

• Qu’est-ce que le data mining ? • A quoi sert le data mining ? • Les 2 grandes familles de techniques • Le déroulement d’un projet de data mining • Coûts et gains du data mining • Facteurs de succès - Erreurs à éviter • L’analyse et la préparationdes données • Techniques descriptives de data mining • Techniques prédictives de data mining • Logiciels de statistique et de data mining • Informatique décisionnelle et de gestion • CNIL et limites légales du data mining • Le web mining • Le text mining
25/12/2006 © Stéphane Tufféry - Data Mining - http://data.mining.free.fr 2

Plan du cours

Le Web Mining

25/12/2006

© Stéphane Tufféry- Data Mining - http://data.mining.free.fr

3

Définition du Web Mining
• •
Web Mining = Data Mining appliqué aux données de navigation sur le web Objectifs du Web Mining (Web Usage Mining) : 1) Optimiser la navigation dans un site, afin de maximiser le confort des internautes, d’augmenter le nb de pages consultées et l’impact des liens et des bannières publicitaires ⇒ Analyses globales 2)Déceler les centres d’intérêt, et donc les attentes, des internautes venant sur le site de l’entreprise ⇒ Analyses individuelles 3) Mieux connaître les clients qui se connectent nominativement à un site, en croisant leurs données de navigation avec leurs données personnelles détenues par l’entreprise ⇒ Analyses nominatives Web Content Mining : Recherche d’informations sur le web et « crawling »des pages web par les moteurs de recherche
© Stéphane Tufféry - Data Mining - http://data.mining.free.fr 4



25/12/2006

1) Analyses globales

• Statistique descriptive
• • • • • •

• Détection des règles d’associations

« 70 % des internautes ont consulté 3 pages ou moins » « 40 % des internautes accèdent au site sans passer par la page d’accueil » « 20 % des internautes visitantla page A visitent la page B dans la même session » établir la matrice de transition entre les pages du site on tient compte de l’ordre des items (≠ tickets de caisse) selon les sites de provenance, les pages d’entrée, le nombre de pages consultées, le temps passé sur les pages, les fichiers téléchargés, les pages de sortie, etc.
© Stéphane Tufféry - Data Mining - http://data.mining.free.fr 5• Typologies d’internautes

25/12/2006

Le fichier « log »

• Source de données pour les analyses globales : le fichier
« log »

• •

est un fichier texte enregistré sur le serveur du site web dans lequel une ligne est écrite à chaque demande de l’internaute (changement de page, téléchargement d’un fichier…)

25/12/2006

© Stéphane Tufféry - Data Mining - http://data.mining.free.fr6

Format du fichier log

• Common Log Format (CLF)

adresse IP de l’internaute, date et heure (avec décalage GMT) de la requête, type de requête, URL demandée, protocole HTTP, code retour du serveur, taille (en bits) de l’envoi ex : 130.5.48.74 [22/May/2002:12:16:57 -0100] "GET /content/index.htm HTTP/1.1" 200 1243 contient en plus la page d’origine (« referrer »), le navigateur et lesystème d’exploitation (« user agent », ici : Internet Explorer 6.0 installé sur Windows XP SP2) ex : 130.5.48.74 [22/May/2002:12:16:57 -0100] "GET /content/news.htm HTTP/1.1" 200 4504 "/content/index.htm" "Mozilla/4.0"
© Stéphane Tufféry - Data Mining - http://data.mining.free.fr 7

• • •

• Extended Log Format (XLF)

25/12/2006

Explications sur le fichier log

• Type de requêtes •Code retour
• • • • • • • • •
get : télécharger un objet put / delete : stocker / détruire un élément sur le serveur head : variante de get (parfois utilisée par les robots) 200 / 2xx : requête satisfaite totalement/partiellement 3xx : redirection 401 / 404 : accès refusé / URL non trouvée 4xx / 5xx : autres erreurs / erreurs du serveur

• Adresse IP

NB : souvent non permanente –...
tracking img