在心理测量学中,「内容效度」(Content Validity),或称逻辑效度,指的是一种测量工具能涵盖某个特定构念的所有面向的程度。例如,一个抑郁量表如果仅评估情感层面,却忽视了行为层面,则可能被认为缺乏内容效度。判断内容效度的过程中,会存在一定的主观性,这需要对某一特定的性格特征(如外向性)达成一定程度的共识。如果对于某一性格特征存在分歧,那么便无法获得高内容效度。
内容效度不同于面子效度,后者是指测试表面上看起来能测量什么,而不关乎测试实际测量的内容。
在测试的应用中,面子效度评估测试对参加者、行政人员以及其它技术上非专业的观察者看来是否“看起来有效”。而内容效度却要求调动认可的主题专家来评估测试项目是否评估到定义好的内容,以及这一评估过程需要的统计测试比面子效度更为严谨。内容效度最常见于学术和职业测试,其中测试项目需要反映某一主题范畴(例如历史)或职业技能(例如会计)所需的实际知识。
在临床应用中,内容效度则指测试项目与某一症候群的症状内容之间的对应关系。
评估内容效度的一种广泛使用的方法由C. H. Lawshe所提出。这本质上是一种评估评审或评分者对于某一项目重要性一致性的方式。 Lawshe(1975年)建议,参加评审的主题专家(SMEs)需对每个项目回答以下问题:“该项目所测量的技能或知识是否对于工作的表现为'必要的'、'有用,但不是必要的'还是'不必要的'?”根据Lawshe的描述,如果超过一半的评审专家表示某一项目是必要的,那么该项目至少拥有一定的内容效度。当越多的评审者同意某项目是必要的时,内容效度的程度则越高。
透过这些假设,Lawshe开发了一个称为内容效度比率的公式。
这个公式的表达式为:
CVR = (ne - N/2) / (N/2)
其中,CVR代表内容效度比率,ne为标明“必要”的主题专家数目,N为主题专家总数。这个公式产生的值范围在+1到-1之间,正值则显示至少有一半的专家评定该项目为必要。针对项目的平均CVR则可以用来指示整体测试的内容效度。
Lawshe于1975年提供了一个CVR的临界值表格,测试评估者可以使用这个表格来判断在特定数量主题专家的情况下,突破机率期望所需的计算CVR大小。深入分析这个已发表的表格会发现一个异常。在Schipper的表格中,CVR的临界值从40名专家的情况下(最小值=0.29)单调上升到9名专家的情况下(最小值=0.78),却在8名专家的情况下突然下降(最小值=0.75),并在7名专家的情况达到最高值(最小值=0.99)。然而,若应用公式至8名评审者时,7名标记为必要者和1名不同标记的数据导出CVR为0.75。若0.75不是临界值,那么则需要8名标记为必要者,这样才能导出CVR为1.00的情况。这样的话,在符合CVR上升顺序的情况下,8名评审者及其值需为1.00,这将违反相同的原则,因8名评审者的“完美”值并不适用于其他数量的评审者。
这一与表格其它单调递增规律的偏离究竟是由于Schipper的计算错误,还是打字或排版上的错误,尚不清楚。 Wilson、Pan和Schumsky于2012年试图修正该错误,却未在Lawshe的文献中找到解释,更无Schipper的发表来说明临界值表的计算过程。研究者们认为Schipper的数值接近于二项分布的常态近似值。他们对比Schipper的值与新计算出来的二项值后发现,Lawshe及Schipper错误地将公开的表格标为单尾测试,实则这些数值反映了双尾测试的二项值。随后,Wilson及其同事发表了一份内容效度比率的临界值重计算表,提供了在多个显著性水准下的临界值。
内容效度的深入探讨不仅对测试设计提出了重大意义,也促进了心理测量学出现新的思考模式。在这个过程中,我们是否应该重新思考如何有效地衡量测试的有效性,从而更明智地应用于实际生活中的各种情境呢?