Cours et exos stats anova

Disponible uniquement sur Etudier
  • Pages : 8 (1887 mots )
  • Téléchargement(s) : 0
  • Publié le : 15 juillet 2010
Lire le document complet
Aperçu du document
ANALYSE DE LA VARIANCE A UN FACTEUR

1. Introduction

Nous allons voir comment la technique du test de Fisher (voir Régression linéaire multiple) peut être utilisée pour apprécier d'un certain point de vue la pertinence de certains classements d'observations.
Posons le problème sur l'exemple concret (mais artificiel) suivant :
On observe les dépenses annuelles en vêtements de n = 7individus, qui habitent des grandes villes, des communes moyennes, ou des communes rurales :

Trois observations "grandes villes" : 128, 142, 98
Deux observations "communes moyennes " : 101, 85
Deux observations "communes rurales" : 67, 86

Ces observations permettent-elles de conclure à l'existence d'un effet "catégorie d'agglomération" sur le montant des dépenses de vêtements ?
En d'autrestermes, peut-on rejeter l'hypothèse d'une espérance de dépense égale, quelle que soit la catégorie de résidence ?

2. Modélisation du problème.

On imagine le modèle suivant : l'observation numéro k dans la catégorie i est une variable aléatoire [pic][pic] définie par :
[pic]

|i : numéro de la catégorie (i = 1, 2, 3) |m : moyenne générale|
|k : numéro de l'observation dans la catégorie i |[pic] : effet dû à la catégorie i |
|[pic] : kième dépense de la catégorie i |[pic] : résidu aléatoire suivant une loi normale N[pic] (et |
| |indépendant des autresrésidus aléatoires). |

Objectif : tester l’effet de la catégorie d’agglomération.
H0 : (1=(2=(3=0 contre H1 : l’un des coefficients (1, (2, (3 est non nul

Nous obtenons alors différentes écritures pour ce modèle :

2.1. Première écriture :

[pic]
2.2 Deuxième écriture (écriture "vectorielle")

[pic]

Ce qui s'écrit encore :[pic]

2.3. Troisième écriture (écriture "matricielle")

[pic]

Ce qui s'écrit encore : [pic]

(S étant le vecteur des coefficients, et L la matrice des variables explicatives).

3. Choix d’ une contrainte sur les coefficients

On est tenté, au départ, d'appliquer la méthode d'ajustement des moindres carrés, sur le modèle [pic] , pour déterminer le vecteur des coefficients. Cependant, lamatrice L n'est pas de plein rang : la somme des trois premières colonnes est égale à la dernière, donc la matrice [pic] ne sera pas inversible, et le vecteur des coefficients [pic] (qui se calculerait par la formule [pic], (voir Régression linéaire multiple) ne peut être déterminé. Le modèle contient, en fait, "un paramètre en trop". Le procédé, utilisé en pratique peut se ramener à une matrice Lde plein rang, est d'imposer une contrainte sur les coefficients.
La contrainte, communément choisie, est la suivante : [pic] (ici, p = 3)

Reprenons l'écriture "vectorielle" du modèle :

[pic]

Comme [pic] , ceci étant dû à la contrainte choisie, on obtient :

[pic]

Cette dernière égalité s'écrit encore, matriciellement, sous la forme :

[pic]

ce que l'on écrira encore :[pic]
(La matrice [pic] étant cette fois de plein rang).
4. Estimation des coefficients : modèle de plein rang

En appliquant la méthode d'ajustement des moindres carrés, on montre que l'on obtient les estimations suivantes :

[pic]

où [pic] ( [pic] = nombre d'observations du groupe i)
[pic] (p = nombre de catégories, ici p = 3).
5. Retour au problème posé dans l’introduction

Ceproblème peut se traduire sous la forme suivante :
Peut-on rejeter l'hypothèse nulle [pic] : [pic] ? (ici p=3). Si oui, on met ainsi, en évidence un effet "catégorie d'agglomération" sur les dépenses de vêtements.
Une procédure de test, permettant de tester la nullité simultanée de coefficients a été
donnée au chapitre Régression linéaire multiple. Il suffit de l'appliquer ici.
Si...
tracking img