la régression logistique (résumé)
On est confronté à des donné qualitatives lorsque l'on étudie des choix (de rachat, de consommation, de comportement, de licenciement) ou des risques de défaillance (prêt).
1. Le modèle dichotomique :
Par modèle dichotomique, on entend un modèle statistique dans lequel la variable expliquée ne peut prendre que deux modalités (variable dichotomique). Il s'agit alors généralement d'expliquer la survenance ou non d'un événement, ou d'un choix.
On considère un échantillon de n individus d'indices i = 1, …, n. Pour chaque individu, on observe si un certain événement s'est réalisé et l'on pose : On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les modèles dichotomique. En effet, celui-ci permet de définir la probabilité de survenance de l'événement comme l'espérance de la variable Y, puisque : L'objectif des modèles dichotomiques consiste alors à expliquer la survenance de l'événement considéré en fonction de K caractéristiques observées (Xi1,.., XiK) pour un individu i de l'échantillon.
2. Un modèle linéaire ?
De manière générale, comme pour le modèle linéaire, on écrit pour les variables explicatives Xi= (1, Xi1,.., XiK ) et pour les paramètres θ= (θ0, θ1,…, θK), de sorte que θ0 + θ1Xi1 + …+ θKXiK = Xθ.
L'usage direct d'un modèle linéaire est voué à l'échec : écrire Yi = Xi θ + ε impose Xi θ + ε de ne prendre que les valeurs 0 et 1.
Graphiquement, les valeurs de Y ne sont pas distribuées autour d'une droite, mais sur deux droites parallèles, Y = 0 et Y = 1.
3. Les modèles logit et probit :
On cherche à expliquer les valeurs de Y grâce à X, c’est-à-dire à estimer la probabilité que Yi = 1 sachant Xi (ou que Yi = 0, ce qui revient au même). On remarque alors que : La seule différence entre les modèles probit et logit est la spécification de F.
3.1. Probit
Le modèle PROBIT est celui pour lequel F est la fonction de répartition de la loi normale centrée