在观察性数据的统计分析中,倾向分数匹配(PSM)是一种统计匹配技巧,试图通过考量预测接受处理的协变数来估算治疗、政策或其他干预的影响。 PSM旨在减少由于混淆变数所导致的估算偏误,这些混淆变数可能会影响到处理效果的估计,这通常只比较接受治疗的人与未接受治疗的人之间的结果。
倾向分数旨在平衡接受治疗与未接受治疗的对照组,以减少因背景变数的差异而引入的偏误。
这一概念是由Paul R. Rosenbaum和Donald Rubin在1983年提出的,他们将倾向分数定义为在一组观察到的协变数下,单位(例如个人、课堂或学校)被分配到治疗的条件概率。这种偏误的可能性源于在接受治疗的群体和未接受者之间的结果差异,这些差异可能是因为影响治疗的因素,而不是治疗本身所致。在随机实验中,随机化能够使治疗效果的估算没有偏误;对于每个协变数,随机化意味着治疗组会在平均而言平衡。然而,在观察性研究中,治疗的指派通常不是随机的。
倾向分数匹配的过程可以概括为以下几个步骤:
倾向分数匹配的核心目的是在未来的分析中,实现相对无偏的治疗效果估计。
倾向分数匹配虽然是一种强大的分析工具,但仍存在若干挑战。首先,它无法考虑未观察到的协变数,因此可能无法消除潜藏的偏误。此外,PSM需要较大的样本量,以确保治疗组和控制组之间有足够的重叠性。这意味着在使用PSM时,研究者必须仔细选择参数,并确保数据的质量和适用性。
通过对已观察的变数进行匹配,PSM能够有效地比较两个不平衡的群体,从而估算平均处理效果。
倾向分数匹配的应用范围非常广泛,尤其是在社会科学及医学研究中。研究者经常用它来解决由于非随机化造成的治疗效果偏误。举个例子,当研究吸烟的效果时,由于道德原因无法随机分配吸烟行为,因此PSM提供了一种可行的方法来控制同时影响吸烟和健康的多个因素。
倾向分数匹配作为一种减少观察性数据中偏误的方法,已经得到广泛使用。虽然它有其局限性,但当合理且适当应用时,能够极大地提高观察性研究的信效度。你是否想过,除了倾向分数匹配,还有哪些其他有效的统计工具可以解决观察性数据中的偏误问题?