在心里测量学中,内容效度(也被称为逻辑效度)指的是一项测量工具在多大程度上能代表某一特定构念的所有面向。例如,如果一个抑郁评量工具仅仅评估抑郁的情感面向,而忽略了行为面向,那么它的内容效度就会受到质疑。
在判断内容效度时,存在一定的主观性,这需要对某一特定人格特质,如外向性,达成一定的共识。
内容效度不同于表面效度,后者关注的是测试表面上看起来是否有效,而非测试实际测量的内容。表面效度评估测试是否“看起来有效”,这一评估通常是针对参与测试的考生、决定使用测试的管理人员及其他无技术背景的观察者。
而内容效度则需要使用已公认的专业领域专家来评估测试项目是否能够全面反映所定义的内容,并且进行比表面效度更为严格的统计测试。内容效度通常应用于学术和职业测试中,在这些测试中,测试项目必须反映出某一特定主题领域,例如历史或职业技能,例如会计。
在临床环境中,内容效度则关乎测试项目与某一综合症状内容之间的对应关系。
C.H. Lawshe提出了一种广泛使用的内容效度测量方法。这种方法基本上是用来评估评估者或评委之间在特定项目上意见一致性的程度。在有关预聘测试的文章中,Lawshe(1975)建议每位参与评判的小组专家针对每一项目回答以下问题:“该项目所测量的技能或知识是否对工作表现来说是'必要的', '有用但不是必要的'还是'不必要的'?”
根据Lawshe的假设,如果超过一半的专家小组成员认为某项目是“必要的”,则该项目至少具备一定的内容效度。随着更多评估者一致认可某项为必要,内容效度的程度就会更高。
根据这些假设,Lawshe开发了一个称为内容效度比率(Content Validity Ratio, CVR)的公式。
这个公式的计算如下:CVR = (ne - N/2) / (N/2)
,其中CVR
表示内容效度比率,ne
是认为该项目“必要”的专家数量,而N
是专家小组的总人数。这个公式的值范围从+1到-1,正值表示至少一半的专家认为该项目是必要的。所有项目的平均CVR也可视为测试整体内容效度的指标。
Lawshe(1975)还提供了一个CVR的临界值表,测试评估者可以根据专家小组的数量判断计算出的CVR值是否超过偶然期望。该表是由Lawshe的朋友Lowell Schipper计算出来的。对于这个公开的表进行仔细检查时发现了一个异常。在Schipper的表中,当专家的数量从40人(最小值= .29)减少到9人(最小值= .78)时,CVR的临界值逐渐上升,但在8位专家时却意外地下降(最小值= .75),随后在7位专家的情况下达到其上限(最小值= .99)。
不过,当将这个公式应用于8个评估者时,7个“必要”和1个“其他”评价的结果将生成一个CVR值为.75。如果.75不是临界值,那么就需要8位评估者全都评定为“必要”,这将导致CVR值为1.00。在这种情况下,为了保持CVR的递增顺序,在8位评估者的情况下,其值必然为1.00,这会违反相同的原则,因为你将拥有8位评估者所需的“完美”值,但对于其他高于或低于8位评估者的评价却没有相应的值。
Wilson、Pan与Schumsky(2012)试图修正该错误,但在Lawshe的著作中并未发现任何解释,也未有Schipper的出版物描述如何计算临界值表。 Wilson及其同事确定,Schipper的值接近于二项分布的正态近似值。他们通过将Schipper的值与新计算的二项值进行比较,发现Lawshe和Schipper将其所发布的表错误标记为一尾测试,实际上这些值镜像了二项分布的双尾测试值。随后,Wilson及其同事发表了内容效度比率的临界值的重新计算,并提供了在多个alpha水平下的单位步长临界值表。
内容效度在心理测试中扮演着至关重要的角色,因其确保测试能够准确地评估所需的构念,以反映现实情况。随着测试在各种设定中的应用日渐普及,对专业和学术界对内容效度的重视也愈加明显。在考虑未来的测试设计时,我们应该问自己:如何能更有效地提升心理测试的内容效度,以促进更准确的评估?