심리측정학에서 내용타당성이란 측정 도구가 구성개념의 모든 측면을 얼마나 적절하게 나타내는지를 평가하는 것입니다. 예를 들어, 우울 척도가 정서적 측면만을 평가하고 행동적 측면을 무시한다면, 그 척도는 내용 타당성이 부족할 수 있습니다. 주관성이 개입되어 내용 타당성을 판단하는 것이 덜 명확해지는데, 외향성과 같은 특정한 성격 특성에 대한 해석이 서로 다른 경우가 많기 때문입니다. 전문가 간에 성격 특성에 대한 이해에 차이가 있다면, 높은 내용타당도를 달성하기 어려울 것입니다.
내용 타당성은 표면 타당성과 다릅니다. 표면 타당성은 검사가 유효한 것처럼 보이는지만 평가할 뿐, 실제 측정 내용을 반영하지는 않습니다.
표면 타당성은 시험 응시자, 관리자 및 기타 기술적으로 전문적이지 않은 관찰자에게 시험이 "효과적인지" 여부에 초점을 맞춥니다. 예를 들어, 지원자가 자료를 볼 때, 그것이 자신의 지식을 시험하는 것이라고 생각하나요, 아니면 기술을 시험하는 것이라고 생각하나요? 이와 대조적으로 내용 타당성은 전문적인 내용 검토자를 투입하여 시험 문항이 정의된 내용을 반영하는지 평가해야 하며, 표면적 타당성보다 더 엄격한 통계적 검정이 필요합니다. 내용 타당성은 학업 및 직업 시험 맥락에서 자주 언급되는데, 그 이유는 시험 문항이 특정 전문 분야(예: 역사)나 직무 기술(예: 회계)에 필요한 지식을 반영해야 하기 때문입니다. 임상적 환경에서 내용 타당성은 검사 항목과 질병 내용 간의 대응성을 말합니다.
로스셰가 제안한 내용타당성 측정방법은 주로 평가자 간의 일치도를 평가하는데, 이 방법은 오늘날에도 여전히 널리 사용되고 있다.
1975년 Lawshe가 제안한 유명한 방법은 프로젝트가 "필요한지"에 대한 검토자의 견해를 평가하는 것입니다. Lawshe에 따르면, 각 전문가 검토자는 각 테스트 항목에 대한 질문에 답합니다. "항목에서 측정한 기술이나 지식이 '필수적'인가, '유용하지만 필수적이지는 않음'인가, '불필요한가'?" 검토자의 절반 이상이 항목이 필수적이라고 믿는다면 해당 항목은 적어도 어느 정도의 내용 타당성이 있습니다. 더 많은 검토자가 항목의 필요성에 동의할수록, 콘텐츠의 타당성도 그에 따라 높아집니다. 그래서 로셰는 내용타당성 비율이라는 공식을 개발했습니다.
내용 타당성 비율은 +1과 -1 사이에서 계산되며, 양수 값은 전문가 검토자 중 절반 이상이 해당 항목을 필수로 간주한다는 것을 나타냅니다.
학자는 Lawshe의 방법을 더욱 심도 있게 탐구하면서 8명의 검토자를 사용했을 때 최소 필수 내용 타당성 비율에 몇 가지 특이한 차이가 있음을 발견했습니다. 이러한 현상은 윌슨, 팬, 슈미츠키와 같은 학자들의 관심을 끌었고, 그들은 2012년에 이러한 가치에 대한 재평가를 제안했습니다. 학자들은 자신들이 계산한 이항 분포 값을 스키퍼의 값과 비교한 결과, 로시와 스키퍼가 표시한 표는 실제로는 양측 검정의 결과이지만 단측 검정으로 잘못 표시되어 원래 값에 대한 혼란을 야기했다는 사실을 발견했습니다. 이러한 오류로 인해 검토자의 수가 다르면 내용 타당성 비율의 임계값이 일관되지 않게 계산됩니다.
따라서 내용타당성 비율을 재평가하는 것이 중요합니다. 이러한 재계산 과정은 새로운 이해의 틀 내에서 내용 타당성의 중요성과 영향을 검토하는 데 필요한 귀중한 정보를 제공합니다. 이러한 일련의 연구는 시험 설계와 평가에서 발생할 수 있는 편견을 보여줄 뿐만 아니라, 학계에 콘텐츠 측정의 신뢰성과 타당성을 성찰할 기회를 제공합니다.
이론에서 실제에 이르기까지, 로셰의 내용 타당성 비율은 단순한 숫자의 집합이 아니라 우리가 사용하는 테스트가 우리가 관심을 갖는 성격 특성이나 행동 기준을 실제로 반영할 수 있음을 보장하는 것입니다.
내용 타당성 문제를 논의할 때, 우리는 주관성과 객관성 사이에서 어떻게 균형을 찾고, 이를 통해 테스트 결과에 대한 확신을 높일 수 있을까라는 질문을 던지지 않을 수 없습니다.