Modèel linéaire contre modèle logistique en regression sur données qualitatives

Pages: 26 (6481 mots) Publié le: 13 avril 2011
Modèle linéaire contre modèle logistique
en régression sur données qualitatives
Philippe Cibois
Département de sociologie,
Université de Versailles - St-Quentin
cibois@francenet.fr
Abstract. The Linear Model Versus The Logistic Model in Regression on Qualitative Data. Regression on qualitative data is usually done by using a logistic model. By examining data where "everything isotherwise equal" one can show that the linear model is quite compatible with this type of data. Results of an in-deep analysis of cross-tabulation data (called tabular analysis), and of regression using linear and logistic models, are quite similar (in terms of percentage effects). The theoretical question concerning the possibility of a linear model remains to be examined : it seems that the specificsituation of a reference category introduces constraints which make the linear model possible. Qualitative Data, Tabular Analysis, Logistic Regression, Linear Regression.
Résumé. La régression sur données qualitatives est habituellement traitée en utilisant un modèle logistique. En examinant des données "toutes choses égales par ailleurs", on montre que le modèle linéaire est tout à fait cohérentavec ce type de données. En comparant les résultats d'une analyse en profondeur des tableaux croisés (appelée analyse tabulaire) avec la régression linéaire et la régression logistique, on constate que ces diverses méthodes donnent des résultats très proches (en termes d'effets en pourcentages). La question théorique de la possibilité du modèle linéaire reste à approfondir : le cas particulier desécarts à une situation de référence introduit des contraintes qui semblent rendre possible l'utilisation du modèle linéaire. Données qualitatives, Analyse tabulaire, Régression logistique, Régression linéaire

La régression sur données qualitatives a d'abord été pratiquée dans des milieux scientifiques qui traitaient des données biologiques, variables quantitatives et qualitatives mélangées :démographie, écologie, épidémiologie. Préalablement à la régression, le modèle logistique mis au point par Verhulst l'a été dans le cadre de la démographie au 19e siècle et celui qui a inventé le terme logit (Berkson 1944) faisait référence à la biologie dans le titre de son article. Si l'on examine plus précisément la régression logistique en épidémiologie (Bouyer 1991 : 80), on constate qu'elle sertà modéliser la relation entre une variable qualitative en présence/absence et des variables qui peuvent être quantitatives ou qualitatives, selon un modèle mis au point par Cox (1972). Le modèle a ensuite été repris par les économistes (Gouriéroux 1989 : 3) où les variables à expliquer sont qualitatives mais où les variables explicatives peuvent encore être un mélange de qualitatifs et dequantitatifs . Par contre dans un ouvrage collectif plus récent de l'INSEE (Lollivier 1996), ne sont plus envisagés que des modèles où toutes les variables sont qualitatives, la variable à expliquer évidemment, mais aussi les autres.
C'est de ce seul cas que nous traiterons dans la suite : nous souhaitons trouver un modèle pour des données où toutes les variables soient nominales. D'un point de vueformel, nous sommes dans le cas d'un tableau de contingence, si nous considérons les tableaux croisés obtenus à partir des données ; mais nous sommes dans le cas d'une base de données de variables nominales si nous considérons les données de base qui permettent de construire ces tableaux croisés où à chaque individu et pour chaque variable correspond soit le numéro d'une modalité (codage ordinaire) soitun codage en présence/absence (codage disjonctif complet).
Dans ce qui suit, nous allons d'abord, en suivant l'adage que le modèle doit suivre les données et non l'inverse , examiner sur des exemples la procédure clé de la régression sur variables qualitatives, c'est à dire la mise en relief d'effets "toutes choses égales par ailleurs". Nous partons en effet de l'hypothèse que dans un...
Lire le document complet

Veuillez vous inscrire pour avoir accès au document.

Vous pouvez également trouver ces documents utiles

  • Regression linéaire
  • Regression linéaire
  • Regréssion linéaire
  • Régression logistique
  • Régression logistique
  • Regression logistique
  • Les modèles de regression
  • La regréssion linéaire multiple

Devenez membre d'Etudier

Inscrivez-vous
c'est gratuit !