En disciplinas relacionadas, como estadística, econometría y epidemiología, los métodos de variables instrumentales (IV) se pueden utilizar cuando no se pueden realizar experimentos controlados o cuando el tratamiento no se administra con éxito a cada muestra en un experimento aleatorio para estimar la causalidad. El objetivo principal de las variables instrumentales es ayudar a descubrir relaciones causales que pueden existir cuando las variables independientes se relacionan con términos de error, especialmente en el caso de sesgo al utilizar el método tradicional de mínimos cuadrados (MCO).
La efectividad de las variables instrumentales radica en el hecho de que pueden inducir cambios en las variables independientes, pero no tienen ningún efecto independiente sobre la variable dependiente y no están relacionadas con el término de error, por lo que los investigadores pueden revelar el impacto causal entre las variables independientes y la variable dependiente.
Los métodos de variables instrumentales permiten a los investigadores realizar estimaciones consistentes cuando las variables explicativas (covariables) están relacionadas con los términos de error en un modelo de regresión. Esta correlación puede ocurrir en las siguientes situaciones: causalidad "inversa" entre variables, variables omitidas que afectan a las variables independientes y dependientes, o problemas de variables causados por errores de medición. En este caso, el algoritmo OLS produce resultados de estimación sesgados e inconsistentes. Sin embargo, si se pueden encontrar variables instrumentales válidas, se pueden obtener estimaciones consistentes a pesar de los problemas.
Las variables instrumentales generalmente se definen como variables que no están en la ecuación de la variable independiente pero que son relevantes para las variables independientes endógenas. Utilizando la prueba de etapa, si la variable instrumental tiene una fuerte correlación con la variable independiente endógena, la variable instrumental se denomina primera etapa fuerte; de lo contrario, puede dar lugar a estimaciones de parámetros engañosas y errores estándar.
En los datos muestreados, se observa una asociación entre fumar (X) y la salud (Y), pero esto no significa que fumar cause mala salud, ya que otras variables como la depresión pueden afectar a ambos.
Específicamente, es posible que los investigadores no puedan realizar experimentos controlados en la población general para evaluar directamente los efectos del tabaquismo en la salud, por lo que pueden utilizar la tasa impositiva sobre los productos de tabaco (Z) como una variable instrumental para fumar. Suponiendo que estas tasas impositivas afectan la salud sólo a través del tabaquismo, los investigadores pueden estimar los efectos benignos del tabaquismo en la salud a partir de datos de observación.
La historia de las variables instrumentales se remonta a 1928, propuesta por primera vez por Philip G. Wright, quien utilizó datos de producción y ventas de cereales y aceite animal para explorar la relación entre la oferta y la demanda. Olav Reiersøl aplicó esta idea en su artículo de 1945 y nombró el método. Por ejemplo, Wright optó por utilizar la lluvia regional como variable instrumental requerida para su análisis porque confirmó que la lluvia afecta la oferta de productos lácteos pero no la demanda.
Si la definición de variables instrumentales puede separar los términos no correlacionados y de error, puede revelar aún más la relación causal.
Este tipo de causalidad es muy importante en economía, especialmente en modelos econométricos. De hecho, estas dos condiciones son los requisitos básicos para el uso de IV cuando intentamos utilizar un modelo de regresión lineal en el que la variable instrumental Z está relacionada con la variable independiente X pero no con el error U. El error U debe estar compuesto por todos los factores exógenos y no debe afectar a la variable dependiente Y cuando se controla por X. Esto significa que los investigadores deben tener conocimientos previos sobre el proceso de generación de datos para poder seleccionar las variables instrumentales apropiadas.
Como ejemplo, supongamos que queremos estimar el impacto de un programa de tutoría universitaria en el promedio de calificaciones de los estudiantes. Los estudiantes que participan en el programa pueden ver su GPA afectado por factores como preocupaciones sobre las calificaciones o dificultades académicas. Si los estudiantes son asignados aleatoriamente a dormitorios, la distancia entre su dormitorio y la escuela intensiva puede convertirse en una variable instrumental eficaz. Si la escuela intensiva se instala en una biblioteca escolar, la correlación entre la distancia y el GPA puede mostrar interferencia de otros factores, por lo que es necesario agregar otras covariables para mantener su validez.
En última instancia, elegir variables instrumentales apropiadas es clave, ya que variables instrumentales inapropiadas pueden llevar a conclusiones erróneas. Al mismo tiempo, el uso de representación gráfica puede ayudar a los investigadores a determinar rápidamente si las variables cumplen con los criterios IV. Revelar estas relaciones causales no sólo puede ayudar a los investigadores a obtener estimaciones consistentes, sino también proporcionar recomendaciones de políticas y vías de implementación más claras.
En el complejo entorno de datos actual, ¿existen otras formas de revelar eficazmente posibles relaciones causales?