心理測定学において、「内容妥当性」(内容妥当性)または論理妥当性は、測定ツールが特定の構成のすべての側面をカバーできる範囲を指します。たとえば、感情的側面のみを評価し、行動的側面を無視するうつ病尺度は、内容妥当性に欠けると考えられる可能性があります。内容妥当性の判断にはある程度の主観が入り込むため、特定の性格特性(外向性など)についてある程度の合意が必要です。特定の性格特性について意見の相違がある場合、高い内容妥当性は達成できません。
内容妥当性は表面妥当性とは異なります。表面妥当性は、テストが実際に測定するものではなく、テストが測定しているように見えるものを指します。
テストアプリケーションでは、表面的妥当性は、参加者、管理者、およびその他の技術的に専門的でない観察者にとってテストが「有効であるように見える」かどうかを評価します。一方、内容妥当性では、テスト項目が定義された内容を評価しているかどうかを評価するために、認められた主題の専門家を動員する必要があり、この評価プロセスでは、表面妥当性よりも厳密な統計的テストが必要です。内容妥当性は、テスト項目が科目領域 (歴史など) または職業スキル (会計など) に必要な実際の知識を反映する必要がある学術テストや職業テストで最もよく見られます。
臨床応用において、内容妥当性は、テスト項目と症候群の症状内容との対応関係を指します。
内容妥当性を評価するために広く使用されている方法は、C. H. Lawshe によって提案されました。これは基本的に、レビュー担当者や評価者がアイテムに置く重要性の一貫性を評価する方法です。 Lawshe(1975)は、レビューに参加する主題専門家(SME)が各項目について次の質問に答えることを推奨しました。「項目によって測定されるスキルまたは知識は、仕事の遂行に「必須」ですか、それとも「有用だが必須ではない」ですか? 「職務遂行に必須か、有用か」のどちらでしょうか? Lawshe 氏によると、レビュー担当者の半数以上が項目が必要だと答えた場合、その項目には少なくとも何らかの内容妥当性があるということになります。より多くのレビュー担当者が項目の必要性に同意した場合、コンテンツの妥当性の度合いは高くなります。
これらの仮定を使用して、ローシェは内容妥当性比と呼ばれる式を開発しました。
この式の表現は次のようになります:
CVR = (ne - N/2) / (N/2)
CVR はコンテンツ妥当性比率、ne は「必要」とマークされた主題専門家の数、N は主題専門家の総数です。この式は +1 から -1 までの範囲の値を生成し、正の値は専門家の少なくとも半数がその項目を必要であると評価したことを示します。項目の平均 CVR は、テスト全体のコンテンツの妥当性を示すために使用できます。
Lawshe (1975) は、テスト評価者が、特定の数の専門家を前提として、ブレークスルーの期待確率を達成するために必要な計算された CVR のサイズを決定するために使用できる CVR しきい値の表を提供しました。この公開された表を詳しく見ると、異常が明らかになります。シッパーの表では、CVRの臨界値は40人の専門家(最小値=0.29)から9人の専門家(最小値=0.78)まで単調に増加しますが、8人の専門家(最小値は0.75)で突然減少し、専門家が 7 人の場合 (最小値は 0.99)。しかし、この式を 8 人のレビュー担当者に適用すると、必要であるとマークした 7 人のレビュー担当者と、別のマークを付けた 1 人のレビュー担当者のデータから、CVR は 0.75 になりました。 0.75 が臨界値ではない場合、CVR 1.00 を導き出すには、8 人の人がそれらを必要としてマークする必要があります。この場合、CVR の昇順では、8 人のレビュー担当者とその値は 1.00 になる必要がありますが、これは同じ原則に違反します。8 人のレビュー担当者の「完璧な」値は他のレビュー担当者の数には適用されないためです。
表の残りの部分の単調増加パターンからのこの逸脱が、Schipper の計算エラーによるものか、入力エラーまたはタイプ設定エラーによるものかは不明です。ウィルソン、パン、シュムスキーは2012年にこの誤りを訂正しようとしたが、ローシェの論文では説明を見つけることができず、また、シッパーによる臨界値表の計算プロセスを説明する出版物もなかった。研究者たちは、シッパー値が二項分布の正規近似値に近いと考えています。 Schipper の値と新たに計算された二項値を比較したところ、Lawshe と Schipper は公開された表を誤って片側検定と分類していたが、実際にはその値は両側検定の二項値を反映していたことが判明しました。その後、ウィルソン氏らは、内容妥当性比の再計算された臨界値の表を発表し、複数の有意水準での臨界値を示しました。
内容妥当性に関する詳細な議論は、テスト設計に重要な影響を与えるだけでなく、心理測定学における新しい思考パターンの出現を促進します。その過程で、テストを実際のさまざまな状況でより賢明に適用できるように、テストの有効性を効果的に測定する方法を再考する必要があるでしょうか?