在統計學、計量經濟學和流行病學等相關學科中,當無法進行受控實驗或者治療在隨機實驗中未能成功傳遞到每一個樣本時,工具變量(IV)的方法能夠用來估計因果關係。工具變量的主要目的是幫助發現當自變量與誤差項相關時可能存在的因果關係,特別是在使用傳統的最小平方法(OLS)時出現偏差的情況下。
工具變量的有效性在於它能夠對自變量誘導變化,但自身對因變量並無獨立影響,並且與誤差項不相關,這樣研究者就可以揭示自變量與因變量之間的因果影響。
工具變量方法使得研究者能夠在解釋變量(協變量)與回歸模型中的誤差項相關時進行一致的估計。這種相關性可能出現在以下情境中:變量之間的「反向」因果關係、因遗漏變量而影響自變量和因變量,或是由於測量誤差所造成的變量問題。在這種情況下,OLS算法會產生有偏和不一致的估計結果。然而,如果能夠找到有效的工具變量,則即使存在問題也能夠獲得一致的估計。
工具變量一般被定義為不在自變量方程中,但對內生自變量具有相關性的變量。利用階段檢驗,若工具變量與內生自變量有強的相關性,則該工具變量稱為強的第一階段,否則可能會導致對參數估計和標準誤的誤導。
在涉及抽樣數據中,觀察到吸煙(X)與健康(Y)之間的關聯,但這並不意味著吸煙造成健康不良,因為如抑鬱症等其他變量可能同時影響兩者。
具體而言,研究者可能無法在一般人群中進行受控實驗來直接評估吸煙對健康的影響,因此可以使用煙草產品的稅率(Z)作為吸煙的工具變量。假設這些稅率僅通過吸煙影響健康,研究者可以從觀察數據中估算吸煙對健康的良性影響。
工具變量的歷史可以追溯到1928年,由Philip G. Wright首次提出,他用谷物和動物油的生產與銷售數據探索需求和供應的關係。Olav Reiersøl於1945年在他的論文中應用這一思想,並為這一方法命名。舉例來說,Wright選擇使用區域降雨作為他分析所需的工具變量,因為他確認降雨影響了乳製品的供應,但不影響需求。
若工具變量的定義能夠使不相關與誤差項分開,則可以進一步揭示因果關係。
這種因果性在經濟學中,特別是在計量模型裡十分重要。實際上,當我們試圖使用線性回歸模式,其中工具變量Z對自變量X相關,而與誤差U不相關時,這兩條件為IV使用的基本要求。誤差U應該由所有外生因素組成,當控制X後不應影響因變量Y。這意味著研究者需要具備關於數據生成過程的背景知識,以選擇合適的工具變量。
舉個例子,假設我們要估計大學補習計畫對學生平均成績的影響。參加該計畫的學生可能因對成績關注或學習困難等因素而影響其GPA。若學生是隨機分配到宿舍,則其宿舍距離補習班的距離可能成為有效的工具變量。若補習班設置在學校圖書館,則該距離與GPA的關聯可能顯示出其他因素的干擾,這樣需要添加其他協變量以保持其有效性。
最終,選擇合適的工具變量是關鍵,因為不當的工具變量可能會導致錯誤的結論。同時,使用圖形表示法可以幫助研究者快速判斷變量是否符合IV的標準。揭示這些因果關係不僅能夠幫助研究者獲得一致的估計,還能提供更為清晰的政策建議及實施路徑。
在當今複雜的數據環境下,是否還有其他方法可以有效揭示潛在的因果關係呢?