心理測定学において、内容妥当性は、測定機器が構成要素のすべての側面を適切に表す程度を評価することです。たとえば、うつ病の尺度が感情面のみを評価し、行動面を無視している場合、その尺度には内容妥当性が欠けている可能性があります。主観が絡むため、外向性などの特定の性格特性の解釈が異なることが多く、内容妥当性の判断が明確ではなくなります。専門家の間で性格特性の理解に違いがある場合、高い内容妥当性を達成することは困難です。
内容妥当性は表面妥当性とは異なります。表面的妥当性は、テストが有効であるように見えるかどうかを評価するだけで、実際に何を測定しているかは反映しません。
表面的妥当性は、テストの受験者、管理者、その他の技術的に詳しくない観察者にとってテストが「機能している」ように見えるかどうかに焦点を当てています。たとえば、応募者が資料を見たとき、自分の知識やスキルがテストされていると思うでしょうか?対照的に、内容妥当性では、テスト項目が定義された内容を反映しているかどうかを評価するために専門のコンテンツレビュー担当者を使用する必要があり、また、表面妥当性よりも厳密な統計テストも必要です。内容妥当性は、学術テストや職業テストの文脈でよく引用されます。これは、テスト項目が特定の専門分野 (歴史など) や職務スキル (会計など) に必要な知識を反映する必要があるためです。臨床現場において、内容妥当性は検査項目と疾患内容の対応関係を指します。
ローシェが提唱した内容妥当性の測定方法は、主に評価者間の一致度を評価するものであり、現在でも広く用いられている。
1975 年に Lawshe によって提案された、プロジェクトが「必要」であるかどうかに関するレビュー担当者の意見を評価するための有名な方法。 Lawshe 氏によると、各専門審査員は各テスト項目について、「項目によって測定されるスキルまたは知識は、『必須』か、『有用だが必須ではない』か、『不必要』か」という質問に答えます。審査員の半数以上が項目が必須であると考えている場合、その項目には少なくともある程度の内容妥当性があります。より多くのレビュー担当者がアイテムの必要性に同意するほど、コンテンツの妥当性の度合いもそれに応じて高まります。そこでローシェは、内容妥当性比率と呼ばれる式を開発しました。
コンテンツ妥当性比率は +1 から -1 の間で計算され、正の値は少なくとも半数の専門家レビュー担当者がその項目を必須と見なしていることを示します。
ローシェの方法をさらに調査したところ、研究者たちは、8 人の査読者を使用した場合に最低限必要な内容妥当性比率に異常な変動があることを発見しました。この現象はウィルソン、パン、シュムスキーなどの学者の注目を集め、彼らは2012年にこれらの価値の再評価を提案しました。学者たちは、自分たちが計算した二項分布の値をシッパーの値と比較することで、ローシェとシッパーがマークした表は実際には両側検定の結果であったが、誤って片側検定と表示され、元の値について混乱を招いていたことを発見した。このようなエラーにより、異なる数のレビュー担当者を使用して計算した場合、コンテンツ妥当性比の臨界値が矛盾することになります。
したがって、内容妥当性比率の再評価が重要です。この再計算プロセスにより、新しい理解の枠組みの中で内容妥当性の重要性と影響を調べることができる貴重な情報が得られます。この一連の研究は、テストの設計と評価における潜在的な偏りを明らかにするだけでなく、学術界にコンテンツ測定の信頼性と妥当性について考えるよう促しています。
理論から実践まで、ローシェの内容妥当性比率は単なる数字の集まりではなく、私たちが使用するテストが、私たちが重視する性格特性や行動基準を真に反映できることを保証するものでもあります。
内容妥当性の問題について議論する場合、主観性と客観性のバランスをどのようにとれば、テスト結果への信頼性を高めることができるのか、という疑問が湧いてきます。