在心理測量學中,「內容效度」(Content Validity),或稱邏輯效度,指的是一種測量工具能涵蓋某個特定構念的所有面向的程度。例如,一個抑鬱量表如果僅評估情感層面,卻忽視了行為層面,則可能被認為缺乏內容效度。判斷內容效度的過程中,會存在一定的主觀性,這需要對某一特定的性格特徵(如外向性)達成一定程度的共識。如果對於某一性格特徵存在分歧,那麼便無法獲得高內容效度。
內容效度不同於面子效度,後者是指測試表面上看起來能測量什麼,而不關乎測試實際測量的內容。
在測試的應用中,面子效度評估測試對參加者、行政人員以及其它技術上非專業的觀察者看來是否“看起來有效”。而內容效度卻要求調動認可的主題專家來評估測試項目是否評估到定義好的內容,以及這一評估過程需要的統計測試比面子效度更為嚴謹。內容效度最常見於學術和職業測試,其中測試項目需要反映某一主題範疇(例如歷史)或職業技能(例如會計)所需的實際知識。
在臨床應用中,內容效度則指測試項目與某一症候群的症狀內容之間的對應關係。
評估內容效度的一種廣泛使用的方法由C. H. Lawshe所提出。這本質上是一種評估評審或評分者對於某一項目重要性一致性的方式。Lawshe(1975年)建議,參加評審的主題專家(SMEs)需對每個項目回答以下問題:“該項目所測量的技能或知識是否對於工作的表現為‘必要的’、‘有用,但不是必要的’還是‘不必要的’?”根據Lawshe的描述,如果超過一半的評審專家表示某一項目是必要的,那麼該項目至少擁有一定的內容效度。當越多的評審者同意某項目是必要的時,內容效度的程度則越高。
透過這些假設,Lawshe開發了一個稱為內容效度比率的公式。
這個公式的表達式為:
CVR = (ne - N/2) / (N/2)
其中,CVR代表內容效度比率,ne為標明“必要”的主題專家數目,N為主題專家總數。這個公式產生的值範圍在+1到-1之間,正值則顯示至少有一半的專家評定該項目為必要。針對項目的平均CVR則可以用來指示整體測試的內容效度。
Lawshe于1975年提供了一個CVR的臨界值表格,測試評估者可以使用這個表格來判斷在特定數量主題專家的情況下,突破機率期望所需的計算CVR大小。深入分析這個已發表的表格會發現一個異常。在Schipper的表格中,CVR的臨界值從40名專家的情況下(最小值=0.29)單調上升到9名專家的情況下(最小值=0.78),卻在8名專家的情況下突然下降(最小值=0.75),並在7名專家的情況達到最高值(最小值=0.99)。然而,若應用公式至8名評審者時,7名標記為必要者和1名不同標記的數據導出CVR為0.75。若0.75不是臨界值,那麼則需要8名標記為必要者,這樣才能導出CVR為1.00的情況。這樣的話,在符合CVR上升順序的情況下,8名評審者及其值需為1.00,這將違反相同的原則,因8名評審者的“完美”值並不適用於其他數量的評審者。
這一與表格其它單調遞增規律的偏離究竟是由於Schipper的計算錯誤,還是打字或排版上的錯誤,尚不清楚。Wilson、Pan和Schumsky于2012年試圖修正該錯誤,卻未在Lawshe的文獻中找到解釋,更無Schipper的發表來說明臨界值表的計算過程。研究者們認為Schipper的數值接近於二項分佈的常態近似值。他們對比Schipper的值與新計算出來的二項值後發現,Lawshe及Schipper錯誤地將公開的表格標為單尾測試,實則這些數值反映了雙尾測試的二項值。隨後,Wilson及其同事發表了一份內容效度比率的臨界值重計算表,提供了在多個顯著性水準下的臨界值。
內容效度的深入探討不僅對測試設計提出了重大意義,也促進了心理測量學出現新的思考模式。在這個過程中,我們是否應該重新思考如何有效地衡量測試的有效性,從而更明智地應用於實際生活中的各種情境呢?