Regression linéaire

Pages: 18 (4467 mots) Publié le: 8 juin 2012
Prédire les valeurs d’une variable continue

Ricco Rakotomalala Ricco.Rakotomalala@univ-lyon2.fr

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

1

Tableau de données et Statut des variables
C ig a r e tte A lp in e Benson& H edges C a m e lL ig h ts C a r lto n C h e s te r f ie ld G o ld e n L ig h ts Kent Kool L&M L a r k L ig h ts M a r lb o r o M e r it M ultiF ilte r N e w p o r tL ig h ts N ow O ld G o ld P a llM a llL ig h t R a le ig h S a le m U ltr a T a r e y to n T r u e L ig h t V ic e r o y R ic h L ig h t V ir g in ia S lim s W in s to n L ig h ts T A R (m g ) N IC O T IN E ( m g E IG H T ( g ) C O ( m g ) W 1 4 .1 0 .8 6 0 .9 8 5 3 16 1 .0 6 1 .0 9 3 8 8 0 .6 7 0 .9 2 8 4 .1 0 .4 0 .9 4 6 2 15 1 .0 4 0 .8 8 8 5 8 .8 0 .7 6 1 .0 2 6 7 1 2.4 0 .9 5 0 .9 2 2 5 1 6 .6 1 .1 2 0 .9 3 7 2 1 4 .9 1 .0 2 0 .8 8 5 8 1 3 .7 1 .0 1 0 .9 6 4 3 1 5 .1 0 .9 0 .9 3 1 6 7 .8 0 .5 7 0 .9 7 0 5 1 1 .4 0 .7 8 1 .1 2 4 9 0 .7 4 0 .8 5 1 7 1 0 .1 3 0 .7 8 5 1 17 1 .2 6 0 .9 1 8 6 1 2 .8 1 .0 8 1 .0 3 9 5 1 5 .8 0 .9 6 0 .9 5 7 3 4 .5 0 .4 2 0 .9 1 0 6 1 4 .5 1 .0 1 1 .0 0 7 7 .3 0 .6 1 0 .9 8 0 6 8 .6 0 .6 9 0 .9 6 9 3 1 5 .2 1 .0 2 0 .9 4 9 6 12 0 .82 1 .1 1 8 4 1 3 .6 1 6 .6 1 0 .2 5 .4 15 9 1 2 .3 1 6 .3 1 5 .4 13 1 4 .4 10 1 0 .2 9 .5 1 .5 1 8 .5 1 2 .6 1 7 .5 4 .9 1 5 .9 8 .5 1 0 .6 1 3 .9 1 4 .9

Identifiant
(Pas utilisé pour les calculs, mais peut être utilisé pour les commentaires : points atypiques, etc.)

Variables prédictives Descripteurs Variables exogènes Quantitative ou qualitative

Variable à prédire Attribut classeVariable endogène Quantitative 2

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

3

Régression linéaire multiple
• Se restreindre à une famille de fonction de prédiction linéaire • Et à des exogènes continues (éventuellement des qualitatives recodées)

yi = a0 + a1 xi ,1 + a2 xi , 2 + L + a p xi ,p + ε i ; i = 1, K , n
> ε

ε

( a0 , a1 , K , a p )

^

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

4

Lecture des coefficients
∂y = aj ∂x j
> d

>

∆x j = 1 et ∆x j ' = 1 ⇒ ∆y = ( a j + a j ' )
^

yi = a0 + a1 xi1 + a2 xi 2 + a3 ( xi1 * xi 2 ) + ε i
 / d

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

5 Régression linéaire multiple
Démarche de modélisation

La démarche de modélisation est toujours la même

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

6

Régression linéaire multiple
Écriture matricielle Pour une meilleure concision …

 y1  1 x11      1  y  = 1 x i1  i    1  y  1 x n1  n 
N.B. Noter la colonne représentant la constante

xijx1 p   a0   ε 1        a1    xip    +  ε i          xnp   a p   ε n     

Y = Xa + ε
(n,1) = (n, p + 1) × ( p + 1,1) + (n,1)
Bien noter les dimensions des matrices
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

7

La méthode des moindres carrés
Valeur observée

yi ˆ yi

ei
Valeur fournie par le modèle

xi

Laméthode des moindres carrés cherche la meilleure estimation des paramètres « a » en minimisant la quantité

S = ∑ ei
i

2

ˆ avec ei = Y − Xa
ε
8

« e », l ’erreur observée (le résidu) est une évaluation du terme d’erreur

Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC

Les hypothèses de la méthode des MCO

« â » deviennent les EMCO (estimateurs des moindres carrésordinaires) Hypothèses probabilistes (hypothèses stochastiques) • les X sont observés sans erreur (non aléatoires) • E(ε) = 0, en moyenne le modèle est bien spécifié • E(ε2)= σ2ε la variance de l ’erreur est constante (homoscédasticité) • E(εi, εj)=0, les erreurs sont non-corrélées (non-autocorrélation des erreurs) • Cov(ε,x)=0, l ’erreur est indépendante des variables explicatives • ε ≡...
Lire le document complet

Veuillez vous inscrire pour avoir accès au document.

Vous pouvez également trouver ces documents utiles

  • Regression linéaire
  • Regréssion linéaire
  • La regréssion linéaire multiple
  • Exercice sur regression lineaire simple
  • Modèel linéaire contre modèle logistique en regression sur données qualitatives
  • régression
  • Lineaire
  • Lineaire

Devenez membre d'Etudier

Inscrivez-vous
c'est gratuit !