在心理測量學中,內容效度是評估一項測量工具是否能夠充分代表某一構念的所有面向的程度。舉例來說,如果一份憂鬱量表僅評估情感面向,卻忽略了行為面的內容,則該量表可能缺乏內容效度。這其中涉及的主觀性使得確定內容效度變得不那麼明確,因為對特定的人格特質,如外向性,的詮釋往往會產生分歧。若專家之間對某人格特質的理解存在分歧,則就難以獲得高內容效度。
內容效度不同於表面效度。表面效度僅評估一項測試外觀上是否有效,而實際上卻並不反映其測量的真實內容。
表面效度的重點在於測試對於考生、管理人員及其他技術不精通的觀察者而言,看起來是否「有效」。例如,當考生看到一份材料時,是否認為這份材料能夠測試他們的知識或技能。相對地,內容效度則要求借助專業的內容評論人來評估測試項目是否反映了定義好的內容,也需要比表面效度更為嚴謹的統計測試。內容效度通常在學術和職業測試中被引用,因為測試項目需要反映出特定專業領域(例如歷史)或工作技能(例如會計)所需的的知識。在臨床環境中,內容效度則指測試項目與病症內容的對應性。
Lawshe提出的測量內容效度的方法主要是針對評估者間的意見一致程度進行評估,這一方法至今仍被廣泛使用。
Lawshe於1975年提出的一種著名方法,旨在評估評審者對於某項目是否「必要」的看法。根據Lawshe的提出,每位專家評審者會針對每個測試項目回答問題:「該項目所測量的技能或知識是『必需的』、『有用但不必需』或『不必要的』嗎?」如果超過一半的評審者認為某項目是必需的,那麼該項目便具有至少某種程度的內容效度。而當越多的評審者同意某項的必要性時,內容效度的程度也會相應增加。Lawshe因此發展出了一個稱為內容效度比率的公式。
內容效度比率的計算結果介於+1到-1之間,正值指示至少一半的專家評審者認為該項目為必需項目。
在進一步探討Lawshe方法的過程中,學者們發現在使用8名評審者時,所需的最小內容效度比率存在一些異常的數值變化。該現象引起了Wilson, Pan與Schumsky等學者的注意,他們在2012年提出了對這些數值的重新評估。透過比較他們計算的二項分佈值與Schipper的值,學者們發現Lawshe和Schipper標記的表格實際上是雙尾測試的結果,但被誤標為單尾測試,這使得原有的數值產生了混淆。這樣的錯誤使得內容效度比率的臨界值在使用不同數量的評審者進行計算時表現出不一致性。
因此,對於內容效度比率的再評估至關重要。而這種重新計算的過程提供了一個有價值的資料,讓我們能夠在全新的理解框架下審視內容效度的重要性及其影響。這一系列的研究不僅揭示出測試設計和評估中可能存在的偏差,也促使學術界反省內容測量的可靠性與有效性。
從理論到實務,Lawshe的內容效度比率不僅僅是一組數字,它同時是一種保證,確保我們所使用的測試能真實反映出我們所關心的人格特質或行為標準。
在探討內容效度的問題時,我們不由得要問,如何才能在主觀性與客觀性之間找到一個平衡點,進而提高我們對測試結果的信服度呢?