在心理测量学中,内容效度是评估一项测量工具是否能够充分代表某一构念的所有面向的程度。举例来说,如果一份忧郁量表仅评估情感面向,却忽略了行为面的内容,则该量表可能缺乏内容效度。这其中涉及的主观性使得确定内容效度变得不那么明确,因为对特定的人格特质,如外向性,的诠释往往会产生分歧。若专家之间对某人格特质的理解存在分歧,则就难以获得高内容效度。
内容效度不同于表面效度。表面效度仅评估一项测试外观上是否有效,而实际上却并不反映其测量的真实内容。
表面效度的重点在于测试对于考生、管理人员及其他技术不精通的观察者而言,看起来是否「有效」。例如,当考生看到一份材料时,是否认为这份材料能够测试他们的知识或技能。相对地,内容效度则要求借助专业的内容评论人来评估测试项目是否反映了定义好的内容,也需要比表面效度更为严谨的统计测试。内容效度通常在学术和职业测试中被引用,因为测试项目需要反映出特定专业领域(例如历史)或工作技能(例如会计)所需的的知识。在临床环境中,内容效度则指测试项目与病症内容的对应性。
Lawshe提出的测量内容效度的方法主要是针对评估者间的意见一致程度进行评估,这一方法至今仍被广泛使用。
Lawshe于1975年提出的一种著名方法,旨在评估评审者对于某项目是否「必要」的看法。根据Lawshe的提出,每位专家评审者会针对每个测试项目回答问题:「该项目所测量的技能或知识是『必需的』、『有用但不必需』或『不必要的』吗?」如果超过一半的评审者认为某项目是必需的,那么该项目便具有至少某种程度的内容效度。而当越多的评审者同意某项的必要性时,内容效度的程度也会相应增加。 Lawshe因此发展出了一个称为内容效度比率的公式。
内容效度比率的计算结果介于+1到-1之间,正值指示至少一半的专家评审者认为该项目为必需项目。
在进一步探讨Lawshe方法的过程中,学者们发现在使用8名评审者时,所需的最小内容效度比率存在一些异常的数值变化。该现象引起了Wilson, Pan与Schumsky等学者的注意,他们在2012年提出了对这些数值的重新评估。透过比较他们计算的二项分布值与Schipper的值,学者们发现Lawshe和Schipper标记的表格实际上是双尾测试的结果,但被误标为单尾测试,这使得原有的数值产生了混淆。这样的错误使得内容效度比率的临界值在使用不同数量的评审者进行计算时表现出不一致性。
因此,对于内容效度比率的再评估至关重要。而这种重新计算的过程提供了一个有价值的资料,让我们能够在全新的理解框架下审视内容效度的重要性及其影响。这一系列的研究不仅揭示出测试设计和评估中可能存在的偏差,也促使学术界反省内容测量的可靠性与有效性。
从理论到实务,Lawshe的内容效度比率不仅仅是一组数字,它同时是一种保证,确保我们所使用的测试能真实反映出我们所关心的人格特质或行为标准。
在探讨内容效度的问题时,我们不由得要问,如何才能在主观性与客观性之间找到一个平衡点,进而提高我们对测试结果的信服度呢?