在统计学和心理测量学中,可靠性指的是一个测量的整体一致性。一个测量如果在一致的条件下产生类似的结果,就被认为具有高可靠性。有关专家指出:“这是与测量过程中可能嵌入测试分数中的随机误差有关的一组测试分数的特征。”简单来说,可靠性越高的测量,其结果的精确性、可重复性与一致性也就越高。
“当测试过程重复进行时,若同一组人员的结果基本一致,则可认为该测量具备高可靠性。”
测量的可靠性有几种不同的类别。首先是各评估者之间的可靠性,即评估者对测量标的的一致性。在此情况下,若一名患者因胃痛就诊并获得多位医生的相同诊断,则这个测量具有良好的可靠性。其次,重测可靠性是指测试分数在不同测试管理之间的一致性。这包括内部一致性评估,评估测试项目之间的一致程度。其间也有多种相互检验的方式,例如,方法之间的可靠性和形式之间的可靠性等。
需要注意的是,可靠性并不等于效度。一个可靠的测量并不意味着它正确地测量了所需的特征。举例来说,虽然有许多测试能够可靠地量化特定能力,但它们未必足以预测工作表现。此时,可靠性对效度有着某种程度的限制。一个不完全可靠的测试必然也无法是完全有效的。例如,如果一个秤始终将物体的重量显示为500克,即便这个秤很可靠,但它显然不够有效,因为显示的重量并非真实的重量。
“一个完全可靠的测量不一定是有效的,但一个有效的测量必定是可靠的。”
实务上,测试措施从未做到完全一致。测试可靠性的理论旨在估算不一致性对测量准确性所造成的影响。测试分数的变异通常受到两种因素的影响:稳定性因素,即个体的稳定特征,及不稳定因素,即个体或情境中可能影响测试分数的其他因素。这可能涉及健康、疲劳、动机等临时因素,也可能包括测试环境的干扰、指引的明确性等。
实现高可靠性的一个重要方法是进行项目分析,这项分析包括计算项目的难度和区分指数。若一些题目过于简单或困难,或者其区分度接近零或为负值,那么这些题目就需要被更有效的项目替代,从而提升测量的可靠性。可靠性通常可透过测试的清晰性、测试长度或其他非正式的方式来提高。
在设计与实施任何测量时,了解可靠性的实质意义及其测试方法是至关重要的。这不仅能确保测试结果的可靠性,还能提升测试的整体效度。若测量不可靠,那么它本身就无法达成预期的效果。我们应该始终反思,是否能从测量的不同角度出发,寻找提升可靠性的更好方法?