専門家による評価の力: 心理テストではコンテンツの妥当性がなぜ重要なのか?

心理測定学では、内容の妥当性 (ロジスティック妥当性とも呼ばれる) は、測定ツールが特定の構成要素のすべての側面を表現できる程度を指します。たとえば、うつ病評価ツールがうつ病の感情面のみを評価し、行動面を無視した場合、その内容の妥当性が疑問視されます。

コンテンツの妥当性の判断にはある程度の主観があり、外向性などの特定の性格特性について一定の合意が必要です。

コンテンツの妥当性は、テストが実際に測定する内容ではなく、テストが表面上妥当であるように見えるかどうかに関係する、表面の妥当性とは異なります。顔の妥当性は、通常、テストを受ける受験者、テストの使用を決定した管理者、およびその他の非技術的な観察者にとって、テストが「機能しているように見える」かどうかを評価します。

コンテンツの妥当性を確認するには、テスト項目が定義されたコンテンツを完全に反映できるかどうかを評価するために、専門分野で認められた専門家の利用が必要であり、妥当性よりも厳密な統計テストを実施する必要があります。コンテンツの妥当性は通常、歴史などの特定の主題領域や会計などの職業スキルをテスト項目に反映する必要がある学術テストや職業テストに適用されます。

臨床現場では、内容の妥当性は、検査項目と症候群の内容との対応に関係します。

測定方法

C.H. Lawshe は、コンテンツの有効性を測定するために広く使用されている方法を提案しました。この方法は基本的に、特定の項目についての評価者または審査員間の一致度を評価するために使用されます。 Lawshe (1975) は、雇用前テストに関する記事の中で、各パネリストが各項目について次の質問に答えることを推奨しました。「その項目によって測定されるスキルや知識は仕事のパフォーマンスにとって『必須』ですか?」 「不要」ですか?

Lawshe の仮説によると、専門家委員会のメンバーの半数以上がアイテムが「必要」であると信じている場合、そのアイテムには少なくともある程度の内容の正当性があります。より多くの評価者が項目が必要であると同意するほど、コンテンツの有効性の度合いが高くなります。

これらの仮定に基づいて、Lawshe はコンテンツ有効率 (CVR) と呼ばれる式を開発しました。

この式の計算は次のとおりです: CVR = (ne - N/2) / (N/2)CVR はコンテンツの有効率、ne は項目を「必要」と考える専門家の数、N はその項目の総数です。パネルの専門家。この式の値の範囲は +1 から -1 で、正の値は専門家の少なくとも半数がプロジェクトが必要であると信じていることを示します。すべての項目の平均 CVR は、テストの全体的なコンテンツの妥当性の指標とみなすこともできます。

Lawshe (1975) は、テスト評価者が計算された CVR 値が専門家パネルの数に基づいて偶然の期待を超えているかどうかを判断できるように、CVR の臨界値の表も提供しています。この表は、Lawshe の友人である Lowell Schipper によって計算されました。この公開テーブルを詳しく検査したところ、異常が判明しました。シッパーの表では、CVR の臨界値は、専門家の数が 40 (最小 = 0.29) から 9 (最小 = 0.78) に減少すると徐々に増加しますが、8 人の専門家 (最小 = 0.75) では予想外に減少し、その後、限界値に達します。その上限 (最小 = .99) を 7 人の専門家で決定します。

ただし、この式を 8 人の評価者に適用すると、7 件の「必須」レビューと 1 件の「その他」レビューの結果、CVR 値は 0.75 になります。 0.75 が臨界値ではない場合、8 人の評価者全員が「必須」と評価する必要があり、CVR は 1.00 になります。この場合、CVR を昇順に保つために、評価者が 8 人の場合、その値は必然的に 1.00 になります。これは、評価者 8 人に必要な「完璧な」値が得られることになるため、同じ原則に違反しますが、対応する値がありません。 8 人の評価者以上または以下の他の評価の値。

Wilson、Pan、および Schumsky (2012) はこの誤りを修正しようとしましたが、Lawshe の研究には説明がなく、臨界値テーブルの計算方法を説明した Schipper の出版物も見つかりませんでした。 Wilson らは、シッパーの値が二項分布の正規近似に近いと判断しました。シッパーの値を新しく計算された二項値と比較することにより、実際には値が二項分布の両側検定値を反映しているにもかかわらず、ローシェとシッパーが発表した表に片側検定として誤ったラベルを付けていたことが判明しました。その後、Wilsonらはコンテンツ有効性比率の臨界値の再計算を発表し、複数のアルファレベルでのユニットステップ臨界値の表を提供した。

結論

内容の妥当性は、現実の状況を反映するために必要な構成要素をテストが正確に評価することを保証するため、心理テストにおいて重要な役割を果たします。さまざまな設定でテストが使用されることがより一般的になるにつれて、専門的および学術的な世界においてコンテンツの妥当性が重視されることがより明確になります。将来のテストの設計を検討するとき、私たちは自問する必要があります。より正確な評価を促進するために、心理テストの内容の妥当性をより効果的に改善するにはどうすればよいでしょうか。

Trending Knowledge

コンテンツ妥当性計算の神話: Lawshe の式がなぜそれほど重要かつ魅力的なのか?
<ヘッダー> </ヘッダー> 心理測定学において、内容妥当性は、測定機器が構成要素のすべての側面を適切に表す程度を評価することです。たとえば、うつ病の尺度が感情面のみを評価し、行動面を無視している場合、その尺度には内容妥当性が欠けている可能性があります。主観が絡むため、外向性などの特定の性格特性の解釈が異なることが多く、内容妥当性の判断が明
表面から実質へ: 妥当性と内容妥当性の意外な違いに直面、ご存知ですか?
心理測定学において、「内容妥当性」(内容妥当性)または論理妥当性は、測定ツールが特定の構成のすべての側面をカバーできる範囲を指します。たとえば、感情的側面のみを評価し、行動的側面を無視するうつ病尺度は、内容妥当性に欠けると考えられる可能性があります。内容妥当性の判断にはある程度の主観が入り込むため、特定の性格特性(外向性など)についてある程度の合意が必要です。特定の性格特性について意見の相違がある
内容妥当性の秘密: テスト項目が心理的特性を確実に反映するようにするには?
心理測定学において、内容妥当性(論理妥当性とも呼ばれる)とは、測定機器が特定の心理的特性のすべての側面をどの程度表現しているかを指します。たとえば、うつ病の尺度が行動面を考慮せずにうつ病の感情面のみを評価する場合、その尺度は内容妥当性に欠ける可能性があります。特定の性格特性(外向性など)の定義にはある程度の主観が含まれるため、合意に達することが内容妥当性を確保する鍵となります。

Responses