在统计学、计量经济学和流行病学等相关学科中,当无法进行受控实验或者治疗在随机实验中未能成功传递到每一个样本时,工具变量(IV)的方法能够用来估计因果关系。工具变量的主要目的是帮助发现当自变量与误差项相关时可能存在的因果关系,特别是在使用传统的最小平方法(OLS)时出现偏差的情况下。
工具变量的有效性在于它能够对自变量诱导变化,但自身对因变量并无独立影响,并且与误差项不相关,这样研究者就可以揭示自变量与因变量之间的因果影响。
工具变量方法使得研究者能够在解释变量(协变量)与回归模型中的误差项相关时进行一致的估计。这种相关性可能出现在以下情境中:变量之间的「反向」因果关系、因遗漏变量而影响自变量和因变量,或是由于测量误差所造成的变量问题。在这种情况下,OLS算法会产生有偏和不一致的估计结果。然而,如果能够找到有效的工具变量,则即使存在问题也能够获得一致的估计。
工具变量一般被定义为不在自变量方程中,但对内生自变量具有相关性的变量。利用阶段检验,若工具变量与内生自变量有强的相关性,则该工具变量称为强的第一阶段,否则可能会导致对参数估计和标准误的误导。
在涉及抽样数据中,观察到吸烟(X)与健康(Y)之间的关联,但这并不意味着吸烟造成健康不良,因为如抑郁症等其他变量可能同时影响两者。
具体而言,研究者可能无法在一般人群中进行受控实验来直接评估吸烟对健康的影响,因此可以使用烟草产品的税率(Z)作为吸烟的工具变量。假设这些税率仅通过吸烟影响健康,研究者可以从观察数据中估算吸烟对健康的良性影响。
工具变量的历史可以追溯到1928年,由Philip G. Wright首次提出,他用谷物和动物油的生产与销售数据探索需求和供应的关系。 Olav Reiersøl于1945年在他的论文中应用这一思想,并为这一方法命名。举例来说,Wright选择使用区域降雨作为他分析所需的工具变量,因为他确认降雨影响了乳制品的供应,但不影响需求。
若工具变量的定义能够使不相关与误差项分开,则可以进一步揭示因果关系。
这种因果性在经济学中,特别是在计量模型里十分重要。实际上,当我们试图使用线性回归模式,其中工具变量Z对自变量X相关,而与误差U不相关时,这两条件为IV使用的基本要求。误差U应该由所有外生因素组成,当控制X后不应影响因变量Y。这意味着研究者需要具备关于数据生成过程的背景知识,以选择合适的工具变量。
举个例子,假设我们要估计大学补习计画对学生平均成绩的影响。参加该计画的学生可能因对成绩关注或学习困难等因素而影响其GPA。若学生是随机分配到宿舍,则其宿舍距离补习班的距离可能成为有效的工具变量。若补习班设置在学校图书馆,则该距离与GPA的关联可能显示出其他因素的干扰,这样需要添加其他协变量以保持其有效性。
最终,选择合适的工具变量是关键,因为不当的工具变量可能会导致错误的结论。同时,使用图形表示法可以帮助研究者快速判断变量是否符合IV的标准。揭示这些因果关系不仅能够帮助研究者获得一致的估计,还能提供更为清晰的政策建议及实施路径。
在当今复杂的数据环境下,是否还有其他方法可以有效揭示潜在的因果关系呢?