В смежных дисциплинах, таких как статистика, эконометрика и эпидемиология, методы инструментальных переменных (IV) можно использовать, когда контролируемые эксперименты невозможно провести или когда лечение не удается успешно применить к каждой выборке в рандомизированном эксперименте для оценки причинно-следственной связи. Основная цель инструментальных переменных — помочь обнаружить причинно-следственные связи, которые могут существовать, когда независимые переменные связаны с ошибочными членами, особенно в случае систематической ошибки при использовании традиционного метода наименьших квадратов (МНК).
Эффективность инструментальных переменных заключается в том, что они могут вызывать изменения независимых переменных, но не оказывают независимого влияния на зависимую переменную и не связаны с ошибкой, так что исследователи могут выявить причинное влияние между независимые переменные и зависимая переменная.
Методы инструментальных переменных позволяют исследователям делать последовательные оценки, когда объясняющие переменные (ковариаты) связаны с ошибками в регрессионной модели. Эта корреляция может возникнуть в следующих ситуациях: «обратная» причинно-следственная связь между переменными, пропущенные переменные, влияющие на независимые и зависимые переменные, или проблемы с переменными, вызванные ошибкой измерения. В этом случае алгоритм OLS дает смещенные и противоречивые результаты оценки. Однако, если можно найти действительные инструментальные переменные, можно получить последовательные оценки, несмотря на проблемы.
Инструментальные переменные обычно определяются как переменные, которые не входят в уравнение независимых переменных, но имеют отношение к эндогенным независимым переменным. При использовании стадийного теста, если инструментальная переменная имеет сильную корреляцию с эндогенной независимой переменной, инструментальная переменная называется сильной первой стадией, в противном случае это может привести к вводящим в заблуждение оценкам параметров и стандартным ошибкам.
В выборочных данных наблюдается связь между курением (X) и здоровьем (Y), но это не означает, что курение приводит к ухудшению здоровья, поскольку другие переменные, такие как депрессия, могут влиять на оба фактора.
В частности, исследователи не смогут проводить контролируемые эксперименты среди населения в целом, чтобы напрямую оценить влияние курения на здоровье, поэтому они могут использовать ставку налога на табачные изделия (Z) в качестве инструментальной переменной для курения. Предполагая, что эти налоговые ставки влияют на здоровье только через курение, исследователи могут оценить благоприятное воздействие курения на здоровье на основе данных наблюдений.
Историю инструментальных переменных можно проследить до 1928 года, впервые предложенную Филипом Дж. Райтом, который использовал данные о производстве и продажах зерна и животного масла для изучения взаимосвязи между спросом и предложением. Олав Рейерсёль применил эту идею в своей статье в 1945 году и назвал метод. Например, Райт решил использовать региональные осадки в качестве инструментальной переменной, необходимой для его анализа, поскольку он подтвердил, что осадки влияют на предложение молочных продуктов, но не на спрос.
Если определение инструментальных переменных позволяет разделить некоррелированные и ошибочные термины, это может дополнительно выявить причинно-следственную связь.
Подобная причинность очень важна в экономике, особенно в эконометрических моделях. Фактически, эти два условия являются основными требованиями для использования IV, когда мы пытаемся использовать модель линейной регрессии, в которой инструментальная переменная Z связана с независимой переменной X, но не связана с ошибкой U. Ошибка U должна состоять из всех экзогенных факторов и не должна влиять на зависимую переменную Y при контроле X. Это означает, что исследователям необходимо иметь базовые знания о процессе генерации данных, чтобы выбрать подходящие инструментальные переменные.
В качестве примера предположим, что мы хотим оценить влияние программы репетиторства в колледже на средний балл учащихся. На средний балл учащихся, участвующих в программе, могут влиять такие факторы, как проблемы с оценками или академические трудности. Если студентов случайным образом распределяют по общежитиям, расстояние между их общежитием и неполной школой может стать эффективной инструментальной переменной. Если дополнительная школа организована в школьной библиотеке, корреляция между расстоянием и средним баллом может демонстрировать влияние других факторов, поэтому для сохранения ее достоверности необходимо добавить другие ковариаты.
В конечном счете, выбор подходящих инструментальных переменных имеет ключевое значение, поскольку неподходящие инструментальные переменные могут привести к ошибочным выводам. В то же время использование графического представления может помочь исследователям быстро определить, соответствуют ли переменные критериям IV. Выявление этих причинно-следственных связей может не только помочь исследователям получить последовательные оценки, но также предоставить более четкие политические рекомендации и пути реализации.
Есть ли другие способы эффективного выявления потенциальных причинно-следственных связей в современной сложной среде данных?