L'analyse de régression
"All models are wrong but some are useful" (Box).
1. Introduction
De nombreuses études consistent à essayer d'expliquer, à l'aide d'un modèle, les variations d'une variable, par exemple le rendement d'une réaction chimique, en fonction d'un certain nombre d'autres variables comme, la température et la quantité de catalyseur utilisées pour effectuer la réaction. On écrira la relation recherchée sous la forme suivante :
Y = f ( X 1, X 2)
où Y représente le rendement, X1 , la température et X , la quantité de catalyseur. Y sera 2 appelé la variable expliquée ou réponse et X1 , X2 les variables explicatives ou facteurs. f(X 1 ,X2 ) représente la fonction mathématique qui lie les facteurs à la réponse. Comme exemples de fonctions f(X 1 ,X2 ) on peut citer :
Y = β 0 + β 1 X 1+ β 2 X 2 ou Y = β 0 + β 1 X 1 + β 2 X 2 + β 11 X 2 + β 12 X 1 X 2 + β 22 X 2 1 2 Ces modèles sont de type polynomial. Le premier est un modèle polynomial d'ordre 1, le second, un modèle polynomial d'ordre 2. Ils appartiennent tous deux à la classe des modèles linéaires car ils sont linéaires par rapport à leurs paramètres ßi. Les modèles traités en pratique appartiennent souvent à la classe des modèles linéaires. Les p coefficients ßi (i=1...p) sont des paramètres inconnus dont il faut évaluer la valeur. Si la relation (1) qui lie Y à X1 et X2 était parfaitement exacte, il suffirait de connaître les valeurs deY et des facteurs X1 et X2 pour p observations et la résolution d'un système d'équation à p inconnues nous livrerait les valeurs des paramètres ßi. Cependant, une relation choisie pour expliquer un phénomène donné n'est que rarement exacte. Tout d'abord, un modèle n'est en général qu'une approximation d'un phénomène beaucoup plus complexe. De plus, toute expérience répétée deux fois dans des conditions que l'on croit identiques, ne donne que rarement le même résultat. Les variations sont en général dues à une multitude de facteurs extérieurs que l'on ne sait