在統計學和心理測量學中,可靠性指的是一個測量的整體一致性。一個測量如果在一致的條件下產生類似的結果,就被認為具有高可靠性。有關專家指出:“這是與測量過程中可能嵌入測試分數中的隨機誤差有關的一組測試分數的特徵。”簡單來說,可靠性越高的測量,其結果的精確性、可重複性與一致性也就越高。
“當測試過程重複進行時,若同一組人員的結果基本一致,則可認為該測量具備高可靠性。”
測量的可靠性有幾種不同的類別。首先是各評估者之間的可靠性,即評估者對測量標的的一致性。在此情況下,若一名患者因胃痛就診並獲得多位醫生的相同診斷,則這個測量具有良好的可靠性。其次,重測可靠性是指測試分數在不同測試管理之間的一致性。這包括內部一致性評估,評估測試項目之間的一致程度。其間也有多種相互檢驗的方式,例如,方法之間的可靠性和形式之間的可靠性等。
需要注意的是,可靠性並不等於效度。一個可靠的測量並不意味著它正確地測量了所需的特徵。舉例來說,雖然有許多測試能夠可靠地量化特定能力,但它們未必足以預測工作表現。此時,可靠性對效度有著某種程度的限制。一個不完全可靠的測試必然也無法是完全有效的。例如,如果一個秤始終將物體的重量顯示為500克,即便這個秤很可靠,但它顯然不夠有效,因為顯示的重量並非真實的重量。
“一個完全可靠的測量不一定是有效的,但一個有效的測量必定是可靠的。”
實務上,測試措施從未做到完全一致。測試可靠性的理論旨在估算不一致性對測量準確性所造成的影響。測試分數的變異通常受到兩種因素的影響:穩定性因素,即個體的穩定特徵,及不穩定因素,即個體或情境中可能影響測試分數的其他因素。這可能涉及健康、疲勞、動機等臨時因素,也可能包括測試環境的干擾、指引的明確性等。
實現高可靠性的一個重要方法是進行項目分析,這項分析包括計算項目的難度和區分指數。若一些題目過於簡單或困難,或者其區分度接近零或為負值,那麼這些題目就需要被更有效的項目替代,從而提升測量的可靠性。可靠性通常可透過測試的清晰性、測試長度或其他非正式的方式來提高。
在設計與實施任何測量時,了解可靠性的實質意義及其測試方法是至關重要的。這不僅能確保測試結果的可靠性,還能提升測試的整體效度。若測量不可靠,那麼它本身就無法達成預期的效果。我們應該始終反思,是否能從測量的不同角度出發,尋找提升可靠性的更好方法?