C10 Moyenne
Dans ce cours, on fait un rappel sur les indices de localisation, médiane, quantiles et moyenne, et on étudie la façon de les utiliser pour comparer les distributions de la variable numériques Y sur les différentes sous-populations induites par X.
Médiane
1 déf La dispersion absolue de l’échantillon E autour d’une valeur v est la somme des distances de chaque observation à v : dea (v,E) = ni=1 |yi − v|.
Illustration : si on tend un élastique entre v et chaque observation yi , dea (v,E) est la longueur totale des élastiques ; si on déplace v d’une longueur a vers la droite, on diminue de a les élastiques situés à droite de v, correspondant aux observations supérieures à v, et on augmente de a les élastiques situés à gauche de v, correspondant aux observations inférieures à v : dea (v,E) diminuera s’il y a plus d’élastiques et donc d’observations à droite de v (cas v1) et augmentera s’il y en a moins (cas v2) ; ainsi dea (v,E) sera minimum pour les valeurs v ayant le même nombre d’observations à droite et à gauche : si le nombre d’observations est impair (cas v3), le minimum est atteint pour la valeur centrale, et s’il est pair (cas v4), le minimum est atteint pour toutes les valeurs de l’intervalle central.
2 déf La médiane d’un ensemble de mesures de Y est la plus petite des valeurs observables qui minimisent la dispersion absolue.
De manière équivalente, c’est la plus petite valeur observable v qui vérifient simultanément les deux propriétés :
P1 : fréquence(observations ≤ v) ≥ 0,5
P2 : fréquence(observations ≥ v) ≥ 0,5.
Ce qui revient à dire que la médiane partage l’échantillon rangé dans l’ordre croissant en deux parties de proportion égales ; pour une variable continue, c’est la valeur qui divise l’histogramme en deux parties égales à 0,5 : F (médiane)=0,5.
3
Calcul de la médiane. Si on dispose des observations yi , on détermine la médiane en rangeant les observations dans l’ordre croissant : si