專家評估的力量:為什麼內容效度對心理測試至關重要?

在心裡測量學中,內容效度(也被稱為邏輯效度)指的是一項測量工具在多大程度上能代表某一特定構念的所有面向。例如,如果一個抑鬱評量工具僅僅評估抑鬱的情感面向,而忽略了行為面向,那麼它的內容效度就會受到質疑。

在判斷內容效度時,存在一定的主觀性,這需要對某一特定人格特質,如外向性,達成一定的共識。

內容效度不同於表面效度,後者關注的是測試表面上看起來是否有效,而非測試實際測量的內容。表面效度評估測試是否“看起來有效”,這一評估通常是針對參與測試的考生、決定使用測試的管理人員及其他無技術背景的觀察者。

而內容效度則需要使用已公認的專業領域專家來評估測試項目是否能夠全面反映所定義的內容,並且進行比表面效度更為嚴格的統計測試。內容效度通常應用於學術和職業測試中,在這些測試中,測試項目必須反映出某一特定主題領域,例如歷史或職業技能,例如會計。

在臨床環境中,內容效度則關乎測試項目與某一綜合症狀內容之間的對應關係。

測量方法

C.H. Lawshe提出了一種廣泛使用的內容效度測量方法。這種方法基本上是用來評估評估者或評委之間在特定項目上意見一致性的程度。在有關預聘測試的文章中,Lawshe(1975)建議每位參與評判的小組專家針對每一項目回答以下問題:“該項目所測量的技能或知識是否對工作表現來說是‘必要的’,‘有用但不是必要的’還是‘不必要的’?”

根據Lawshe的假設,如果超過一半的專家小組成員認為某項目是“必要的”,則該項目至少具備一定的內容效度。隨著更多評估者一致認可某項為必要,內容效度的程度就會更高。

根據這些假設,Lawshe開發了一個稱為內容效度比率(Content Validity Ratio, CVR)的公式。

這個公式的計算如下:CVR = (ne - N/2) / (N/2),其中CVR表示內容效度比率,ne是認為該項目“必要”的專家數量,而N是專家小組的總人數。這個公式的值範圍從+1到-1,正值表示至少一半的專家認為該項目是必要的。所有項目的平均CVR也可視為測試整體內容效度的指標。

Lawshe(1975)還提供了一個CVR的臨界值表,測試評估者可以根據專家小組的數量判斷計算出的CVR值是否超過偶然期望。該表是由Lawshe的朋友Lowell Schipper計算出來的。對於這個公開的表進行仔細檢查時發現了一個異常。在Schipper的表中,當專家的數量從40人(最小值= .29)減少到9人(最小值= .78)時,CVR的臨界值逐漸上升,但在8位專家時卻意外地下降(最小值= .75),隨後在7位專家的情況下達到其上限(最小值= .99)。

不過,當將這個公式應用於8個評估者時,7個“必要”和1個“其他”評價的結果將生成一個CVR值為.75。如果.75不是臨界值,那麼就需要8位評估者全都評定為“必要”,這將導致CVR值為1.00。在這種情況下,為了保持CVR的遞增順序,在8位評估者的情況下,其值必然為1.00,這會違反相同的原則,因為你將擁有8位評估者所需的“完美”值,但對於其他高於或低於8位評估者的評價卻沒有相應的值。

Wilson、Pan與Schumsky(2012)試圖修正該錯誤,但在Lawshe的著作中並未發現任何解釋,也未有Schipper的出版物描述如何計算臨界值表。Wilson及其同事確定,Schipper的值接近於二項分佈的正態近似值。他們通過將Schipper的值與新計算的二項值進行比較,發現Lawshe和Schipper將其所發布的表錯誤標記為一尾測試,實際上這些值鏡像了二項分佈的雙尾測試值。隨後,Wilson及其同事發表了內容效度比率的臨界值的重新計算,並提供了在多個alpha水平下的單位步長臨界值表。

結語

內容效度在心理測試中扮演著至關重要的角色,因其確保測試能夠準確地評估所需的構念,以反映現實情況。隨著測試在各種設定中的應用日漸普及,對專業和學術界對內容效度的重視也愈加明顯。在考慮未來的測試設計時,我們應該問自己:如何能更有效地提升心理測試的內容效度,以促進更準確的評估?

Trending Knowledge

內容效度計算的迷思:Lawshe的公式為何如此關鍵且引人入勝?
<header> </header> 在心理測量學中,內容效度是評估一項測量工具是否能夠充分代表某一構念的所有面向的程度。舉例來說,如果一份憂鬱量表僅評估情感面向,卻忽略了行為面的內容,則該量表可能缺乏內容效度。這其中涉及的主觀性使得確定內容效度變得不那麼明確,因為對特定的人格特質,如外向性,的詮釋往往會產生分歧。若專家之間對某人格特質的理
從表面到實質:面對效度和內容效度之間的驚人差異,你知道嗎?
在心理測量學中,「內容效度」(Content Validity),或稱邏輯效度,指的是一種測量工具能涵蓋某個特定構念的所有面向的程度。例如,一個抑鬱量表如果僅評估情感層面,卻忽視了行為層面,則可能被認為缺乏內容效度。判斷內容效度的過程中,會存在一定的主觀性,這需要對某一特定的性格特徵(如外向性)達成一定程度的共識。如果對於某一性格特徵存在分歧,那麼便無法獲得高內容效度。 <blockquote>
內容效度的奧秘:如何確保你的測驗題目真正反映心理特質?
在心理測量學中,內容效度(也稱為邏輯效度)是指測量工具在多大程度上代表特定心理特質的所有面向。例如,如果一個憂鬱症量表僅評估憂鬱的情緒面向,而未考慮到行為面向,那麼這個量表可能缺乏內容效度。由於關於某個特定人格特質(如外向性)的定義存在一定的主觀性,因此達成共識是確保內容效度的關鍵。 <blockquote> 內容效度不同於表面效度,表面效度指的是測試表面

Responses