Estimation de la variance
Variance empirique
Soit {x1, x2, ..., xn} un échantillon de n observations issu d'une distribution de probabilité. Suivant le même schéma de pensée que précédemment, nous définissons s², la variance empirique ("empirique" voulant dire "de l'échantillon"), comme la moyenne des carrés des différences entre les valeurs des observations et la moyenne de l'échantillon. s ² = 1/n. i(xi - )² i = 1, 2, ..., n
Nous laissons au lecteur le soin de montrer que cette expression est équivalente à celle-ci : s ² = 1/n.( i xi²) - ²
-----
Pour des raisons qui apparaîtront clairement dans quelques lignes, n est souvent remplacé par n - 1 dans l'expression ci-dessus. Cette modification conduit à la définition alternative de la variance empirique :
S ² = 1/(n - 1). i(xi - )² i = 1, 2, ..., n
La différence entre ces deux définitions est négligeable pour de grandes valeurs de n, mais est appréciable pour de petites valeurs de n (petits échantillons). En tout état de cause, lorsque l'on voit mentionné une "variance empirique", il est bon de vérifier quelle est la définition utilisée par l'auteur.
Estimation sans biais de la variance d'une distribution
Le changement de n en n - 1 dans la définition de la variance empirique est relié à la question de l'estimation de la variance d'une distribution en utilisant la variance empirique comme estimateur. Nous montrerons que : * La variance empirique s ² est un estimateur biaisé de la variance ² de la distribution. * Alors que la variance empirique "corrigée" S ² est un estimateur sans biais de la variance ² de la distribution.
E[1/(n - 1). i(xi - )²] = ²
La nécessité de remplacer n par (n - 1) vient de ce que la moyenne µ de la distribution est inconnue, et doit être remplacée par son estimation . Si µ est connue, alors : s ² = 1/n. i(xi - µ)² est un estimateur sans biais de la variance de la