Dans les statistiques modernes, le concept de modèles linéaires permet aux chercheurs de comprendre et de prédire les relations entre les variables. Parmi eux, le modèle linéaire général (GLM) est largement utilisé dans l'analyse de régression multivariée, tandis que la régression linéaire multiple est un cas particulier de cette théorie. Alors, quel est le lien entre les deux ?
Le modèle linéaire général est une manière parcimonieuse de représenter simultanément plusieurs modèles de régression multivariée, ce qui signifie qu'il ne s'agit pas d'un modèle linéaire statistique indépendant. En bref, nous pouvons écrire différents modèles de régression multivariée sous la forme suivante :
Y = X * B + U
Ici, Y est une matrice contenant les données de plusieurs variables mesurées, X est la matrice d'observation des variables indépendantes, B est la matrice des paramètres et U est la matrice d'incertitude ou d'erreur. Il convient de mentionner que ces erreurs sont généralement supposées ne pas être corrélées entre les observations et suivre une distribution normale multivariée. Si ces erreurs ne suivent pas une distribution normale multivariée, nous pouvons utiliser un modèle linéaire généralisé (GLM) pour assouplir les hypothèses sur Y et U.
La signification principale du modèle linéaire général est qu'il combine une variété de modèles statistiques différents, tels que ANOVA, ANCOVA, MANOVA, MANCOVA, etc., ce qui lui permet de gérer plus d'une variable dépendante et de fournir une analyse plus complète. En ce sens, la régression linéaire ordinaire est un cas particulier du modèle linéaire général, c'est-à-dire qu'elle est limitée au cas d'une seule variable dépendante.
La régression linéaire ordinaire est un modèle lié à la régression linéaire simple qui se concentre sur les effets de plusieurs variables indépendantes sur une seule variable dépendante.
Plus précisément, le modèle de base de la régression linéaire ordinaire est : Yi = β0 + β1 * Xi1 + β2 * Xi2 + ... + βp * Xip + εi. Si nous considérons n observations et p variables indépendantes en utilisant cette formule, Yi est la i-ème observation de la variable dépendante, tandis que Xik représente l'observation correspondante de la variable indépendante, βj est le paramètre à estimer et εi est la i-ème erreur normale indépendante et identiquement distribuée.
Pour le modèle linéaire général, lorsqu’il y a plus d’une variable dépendante, nous entrons dans le domaine de la régression multivariée. Dans ce cas, pour chaque variable dépendante, des paramètres de régression correspondants sont estimés ; il s'agit donc en réalité, d'un point de vue informatique, d'une série de régressions linéaires multiples standard, toutes utilisant les mêmes variables explicatives.
Le modèle linéaire général suppose que les résidus suivront une distribution normale conditionnelle, tandis que le modèle linéaire généralisé assouplit cette hypothèse pour permettre une variété d’autres distributions.
En regardant plus loin, une différence importante entre les modèles linéaires généraux et les modèles linéaires généralisés (GLM) est que les GLM permettent une gamme plus large de distributions résiduelles, en choisissant parmi la famille de distributions exponentielles, telles que la régression logistique binaire, la régression de Poisson, etc. L’importance de cette critique est que, face à différents types de variables de résultat, les chercheurs peuvent choisir le modèle approprié pour obtenir le meilleur effet de prédiction.
Par exemple, on peut voir l’application de modèles linéaires généraux dans l’analyse des données d’imagerie cérébrale, où Y pourrait être constitué des données des images cérébrales et X serait les variables de la conception expérimentale. Ces tests sont généralement effectués de manière univariée, ce que l'on appelle dans ce contexte une analyse univariée de masse, et sont souvent utilisés dans les études de cartographie paramétrique statistique.
En résumé, la régression linéaire ordinaire est liée au modèle linéaire général en tant que famille et à ses cas particuliers, en se concentrant sur la manière de passer d'observations simples à des relations multivariées complexes. À mesure que les techniques d’analyse statistique progressent, la compréhension des trésors cachés dans ces modèles fera partie intégrante des travaux de recherche. Cependant, dans un tel contexte de développement, nous devrions peut-être nous demander : avez-vous pleinement utilisé ces outils statistiques pour influencer vos recherches et vos prises de décision ?