在現代研究中,如何揭示因果關係是一項挑戰,尤其在隨機化實驗無法實施的情況下,一種流行的替代方案是回歸不連續設計(RDD)。這種方法根據特定的分界或閾值,將觀察數據劃分為接受干預和不接受干預的組別,從而幫助我們了解干預的實際影響。
回歸不連續設計的主要魅力在於其能在沒有隨機分配的情況下,通過比較相鄰的觀察來估算處理效應。
回歸不連續設計首次由Donald Thistlethwaite與Donald Campbell於1960年提出,旨在評估獎學金計畫的有效性。隨著時間的推移,RDD逐漸成為一種主流的研究設計,它的有效性在多個隨機對照試驗(RCTs)中得到了實證支持。
以基於表現的獎學金為例,如何正確估算此一干預的因果效應成為關鍵挑戰。由於高表現學生更容易獲得獎學金,從而繼續表現良好,這使得比較獲獎學生和未獲獎學生的結果時,結果會向上偏誤。
在此情形下,RDD能夠利用干預的外生特性來深入了解因果關係。如果設立的獎學金門檻為80%,則比較剛好經過這一閾值的學生(例如79%和81%)的表現,就可以揭示獎學金的地方性治療效應。
將接受獎學金的學生(治療組)及那些未獲獎的學生(控制組)進行比較,可以揭示出獎學金對學術成績的具體影響。
在RDD的應用中,最常用的估計方法包括非參數和參數估計。非參數估計,例如局部線性迴歸,強調了選定樣本與閾值的接近性,進而提供了對因果效應的更清晰的視圖。
然而,參數估計如多項式迴歸不僅靈活,還能根據需求調整模型,以捕獲更複雜的關係。這些方法的選擇及其適當性對研究結果的影響不可小覷。
RDD的有效性依賴於某些假設的滿足,例如所有潛在相關變數在處理和結果變數所產生的不連續點上是連續的。這保證了剛好在閾值上的個體之間是可比的。
如果這些條件不成立,對於治療效果的推斷將很容易受到偏誤的影響。
此外,若在閾值的兩側檢測到的觀察數據存在不連續性,那麼就可能表明某些特殊個體有能力操控其治療狀態,從而削弱了RDD的可信度。
在適當的實施及分析後,RDD能提供非偏倚的地方性治療效應估計,且在許多情況下,可以與隨機實驗的結果相媲美。但如果模型的函數形式不正確,則估計結果的可靠性將受到質疑。
準確捕捉治療和結果之間的關係是RDD成功的關鍵。
隨著RDD方法的持續發展,研究者們也提出了模糊回歸不連續設計和回歸變化設計等改進方法,這些方法能夠應對更為複雜的實施情境,從而拓展RDD在實證研究中的適用範圍。
最終,回歸不連續設計因其靈活性和在因果推斷方面的潛力,已逐漸成為經濟學、政治學和流行病學等領域的重要工具。然而,這一方法的運用依舊需要謹慎,研究者們須確保所有假設的嚴謹性,不然所得結果可謂來之不易。
在未來的研究中,我們能否找到更有效的方法,來驗證和擴展回歸不連續設計的應用範圍,以揭示更多未知的因果關係?