在心裡測量學中,內容效度(也被稱為邏輯效度)指的是一項測量工具在多大程度上能代表某一特定構念的所有面向。例如,如果一個抑鬱評量工具僅僅評估抑鬱的情感面向,而忽略了行為面向,那麼它的內容效度就會受到質疑。
在判斷內容效度時,存在一定的主觀性,這需要對某一特定人格特質,如外向性,達成一定的共識。
內容效度不同於表面效度,後者關注的是測試表面上看起來是否有效,而非測試實際測量的內容。表面效度評估測試是否“看起來有效”,這一評估通常是針對參與測試的考生、決定使用測試的管理人員及其他無技術背景的觀察者。
而內容效度則需要使用已公認的專業領域專家來評估測試項目是否能夠全面反映所定義的內容,並且進行比表面效度更為嚴格的統計測試。內容效度通常應用於學術和職業測試中,在這些測試中,測試項目必須反映出某一特定主題領域,例如歷史或職業技能,例如會計。
在臨床環境中,內容效度則關乎測試項目與某一綜合症狀內容之間的對應關係。
C.H. Lawshe提出了一種廣泛使用的內容效度測量方法。這種方法基本上是用來評估評估者或評委之間在特定項目上意見一致性的程度。在有關預聘測試的文章中,Lawshe(1975)建議每位參與評判的小組專家針對每一項目回答以下問題:“該項目所測量的技能或知識是否對工作表現來說是‘必要的’,‘有用但不是必要的’還是‘不必要的’?”
根據Lawshe的假設,如果超過一半的專家小組成員認為某項目是“必要的”,則該項目至少具備一定的內容效度。隨著更多評估者一致認可某項為必要,內容效度的程度就會更高。
根據這些假設,Lawshe開發了一個稱為內容效度比率(Content Validity Ratio, CVR)的公式。
這個公式的計算如下:CVR = (ne - N/2) / (N/2)
,其中CVR
表示內容效度比率,ne
是認為該項目“必要”的專家數量,而N
是專家小組的總人數。這個公式的值範圍從+1到-1,正值表示至少一半的專家認為該項目是必要的。所有項目的平均CVR也可視為測試整體內容效度的指標。
Lawshe(1975)還提供了一個CVR的臨界值表,測試評估者可以根據專家小組的數量判斷計算出的CVR值是否超過偶然期望。該表是由Lawshe的朋友Lowell Schipper計算出來的。對於這個公開的表進行仔細檢查時發現了一個異常。在Schipper的表中,當專家的數量從40人(最小值= .29)減少到9人(最小值= .78)時,CVR的臨界值逐漸上升,但在8位專家時卻意外地下降(最小值= .75),隨後在7位專家的情況下達到其上限(最小值= .99)。
不過,當將這個公式應用於8個評估者時,7個“必要”和1個“其他”評價的結果將生成一個CVR值為.75。如果.75不是臨界值,那麼就需要8位評估者全都評定為“必要”,這將導致CVR值為1.00。在這種情況下,為了保持CVR的遞增順序,在8位評估者的情況下,其值必然為1.00,這會違反相同的原則,因為你將擁有8位評估者所需的“完美”值,但對於其他高於或低於8位評估者的評價卻沒有相應的值。
Wilson、Pan與Schumsky(2012)試圖修正該錯誤,但在Lawshe的著作中並未發現任何解釋,也未有Schipper的出版物描述如何計算臨界值表。Wilson及其同事確定,Schipper的值接近於二項分佈的正態近似值。他們通過將Schipper的值與新計算的二項值進行比較,發現Lawshe和Schipper將其所發布的表錯誤標記為一尾測試,實際上這些值鏡像了二項分佈的雙尾測試值。隨後,Wilson及其同事發表了內容效度比率的臨界值的重新計算,並提供了在多個alpha水平下的單位步長臨界值表。
內容效度在心理測試中扮演著至關重要的角色,因其確保測試能夠準確地評估所需的構念,以反映現實情況。隨著測試在各種設定中的應用日漸普及,對專業和學術界對內容效度的重視也愈加明顯。在考慮未來的測試設計時,我們應該問自己:如何能更有效地提升心理測試的內容效度,以促進更準確的評估?