Dans des disciplines connexes telles que les statistiques, l'économétrie et l'épidémiologie, les méthodes de variables instrumentales (IV) peuvent être utilisées lorsque des expériences contrôlées ne peuvent pas être réalisées ou lorsque le traitement n'est pas appliqué avec succès à chaque échantillon d'une expérience randomisée pour estimer la causalité. L'objectif principal des variables instrumentales est d'aider à découvrir les relations causales qui peuvent exister lorsque des variables indépendantes sont liées à des termes d'erreur, notamment en cas de biais lors de l'utilisation de la méthode traditionnelle des moindres carrés (OLS).
L'efficacité des variables instrumentales réside dans le fait qu'elles peuvent induire des changements dans les variables indépendantes, mais elles n'ont aucun effet indépendant sur la variable dépendante et ne sont pas liées au terme d'erreur, de sorte que les chercheurs peuvent révéler l'impact causal entre les variables indépendantes et la variable dépendante.
Les méthodes des variables instrumentales permettent aux chercheurs de réaliser des estimations cohérentes lorsque les variables explicatives (covariables) sont liées aux termes d'erreur dans un modèle de régression. Cette corrélation peut se produire dans les situations suivantes : causalité « inverse » entre variables, variables omises affectant les variables indépendantes et dépendantes, ou problèmes de variables causés par une erreur de mesure. Dans ce cas, l’algorithme OLS produit des résultats d’estimation biaisés et incohérents. Cependant, si des variables instrumentales valides peuvent être trouvées, des estimations cohérentes peuvent être obtenues malgré les problèmes.
Les variables instrumentales sont généralement définies comme des variables qui ne figurent pas dans l'équation des variables indépendantes mais qui sont pertinentes pour les variables indépendantes endogènes. En utilisant le test de stade, si la variable instrumentale a une forte corrélation avec la variable indépendante endogène, la variable instrumentale est appelée une première étape forte, sinon elle peut conduire à des estimations de paramètres et à des erreurs types trompeuses.
Dans les données échantillonnées, une association entre le tabagisme (X) et la santé (Y) est observée, mais cela ne signifie pas que le tabagisme entraîne une mauvaise santé, car d'autres variables telles que la dépression peuvent affecter les deux.
Plus précisément, les chercheurs ne seront peut-être pas en mesure de mener des expériences contrôlées dans la population générale pour évaluer directement les effets du tabagisme sur la santé. Ils pourraient donc utiliser le taux de taxe sur les produits du tabac (Z) comme variable instrumentale pour le tabagisme. En supposant que ces taux d’imposition affectent la santé uniquement par le biais du tabagisme, les chercheurs peuvent estimer les effets bénins du tabagisme sur la santé à partir de données d’observation.
L'histoire des variables instrumentales remonte à 1928, proposée pour la première fois par Philip G. Wright, qui a utilisé les données sur la production et les ventes de céréales et d'huiles animales pour explorer la relation entre l'offre et la demande. Olav Reiersøl a appliqué cette idée dans son article de 1945 et a nommé la méthode. Par exemple, Wright a choisi d’utiliser les précipitations régionales comme variable instrumentale requise pour son analyse car il a confirmé que les précipitations affectent l’offre de produits laitiers mais pas la demande.
Si la définition des variables instrumentales peut séparer les termes non corrélés et les termes d'erreur, elle peut révéler davantage la relation causale.
Ce type de causalité est très important en économie, notamment dans les modèles économétriques. En fait, ces deux conditions sont les conditions de base pour l’utilisation de IV lorsque l’on essaie d’utiliser un modèle de régression linéaire dans lequel la variable instrumentale Z est liée à la variable indépendante X mais non liée à l’erreur U. L'erreur U doit être composée de tous les facteurs exogènes et ne doit pas affecter la variable dépendante Y lors du contrôle de X. Cela signifie que les chercheurs doivent avoir des connaissances de base sur le processus de génération de données afin de sélectionner les variables instrumentales appropriées.
À titre d'exemple, supposons que nous souhaitions estimer l'impact d'un programme de tutorat universitaire sur la moyenne pondérée cumulative des étudiants. Les étudiants participant au programme peuvent voir leur moyenne cumulative affectée par des facteurs tels que des problèmes de notes ou des difficultés académiques. Si les étudiants sont répartis de manière aléatoire dans des dortoirs, la distance entre leur dortoir et l’école secondaire peut devenir une variable instrumentale efficace. Si le bac scolaire est installé dans une bibliothèque scolaire, la corrélation entre la distance et la moyenne cumulative peut montrer des interférences provenant d'autres facteurs, de sorte que d'autres covariables doivent être ajoutées pour maintenir sa validité.
En fin de compte, il est essentiel de choisir des variables instrumentales appropriées, car des variables instrumentales inappropriées peuvent conduire à des conclusions erronées. Dans le même temps, l’utilisation d’une représentation graphique peut aider les chercheurs à déterminer rapidement si les variables répondent aux critères IV. Révéler ces relations causales peut non seulement aider les chercheurs à obtenir des estimations cohérentes, mais également fournir des recommandations politiques et des voies de mise en œuvre plus claires.
Dans l'environnement complexe des données d'aujourd'hui, existe-t-il d'autres moyens de révéler efficacement les relations causales potentielles ?