외관부터 내용까지: 타당성과 내용 타당성의 놀라운 차이에 직면하고 계십니까?

심리측정학에서 "내용 타당성"(내용 타당성) 또는 논리적 타당성은 측정 도구가 특정 구성개념의 모든 측면을 포괄할 수 있는 정도를 말합니다. 예를 들어, 정서적 차원만을 평가하고 행동적 차원을 무시하는 우울 척도는 내용 타당성이 부족하다고 간주될 수 있습니다. 내용 타당성을 판단하는 데는 어느 정도 주관성이 따르므로, 특정한 성격 특성(예: 외향성)에 대한 일정 수준의 합의가 필요합니다. 특정한 성격 특성에 대한 의견 불일치가 있으면 높은 내용타당성을 달성할 수 없습니다.

내용 타당성은 검사가 실제로 측정하는 것이 아니라 검사가 측정하는 것처럼 보이는 것을 의미하는 표면 타당성과 다릅니다.

테스트 응용 프로그램에서 표면 타당성은 테스트가 참가자, 관리자 및 기타 기술적으로 전문가가 아닌 관찰자에게 "유효한 것처럼 보이는지" 여부를 평가합니다. 반면 내용 타당성은 인정받는 해당 분야의 전문가를 동원하여 시험 문항이 정의된 내용을 평가하는지 평가하는 것을 요구하며, 이 평가 과정에는 표면적 타당성보다 더 엄격한 통계적 검정이 필요합니다. 내용 타당성은 학업 및 직업 시험에서 가장 흔히 발견되는데, 이 경우 시험 문항은 특정 분야(예: 역사)나 직업 기술(예: 회계)에 필요한 실제 지식을 반영해야 합니다.

임상 적용에서 내용 타당성은 검사 항목과 증후군의 증상 내용 간의 대응성을 나타냅니다.

내용 타당성 측정 방법

내용 타당성을 평가하는 데 널리 사용되는 방법은 C. H. Lawshe가 제안했습니다. 이는 기본적으로 검토자 또는 평가자가 항목에 두는 중요도의 일관성을 평가하는 방법입니다. Lawshe(1975)는 검토에 참여하는 주제 전문가(SME)가 각 항목에 대해 다음 질문에 답하도록 권장했습니다. "항목으로 측정된 기술 또는 지식이 직무 수행에 '필수적'인가, '유용하지만 필수적이지는 않은가' ', '유용하지만 직무 수행에 필요하지는 않음' 중 어느 것을 선택해야 할까?" Lawshe에 따르면, 절반 이상의 검토자가 항목이 필요하다고 말하면 해당 항목은 적어도 어느 정도의 내용 타당성이 있다고 합니다. 더 많은 검토자가 항목이 필요하다고 동의하면, 콘텐츠 타당성의 정도가 더 높아집니다.

이러한 가정을 사용하여 Lawshe는 내용타당성 비율이라는 공식을 개발했습니다.

이 공식의 표현은 다음과 같습니다.

CVR = (ne - N/2) / (N/2)

여기서 CVR은 콘텐츠 타당성 비율을 의미하고, ne는 "필요"로 표시된 주제 전문가 수이고, N은 주제 전문가의 총 수입니다. 이 공식은 +1에서 -1까지의 값을 생성하는데, 양수 값은 전문가의 절반 이상이 해당 항목을 필요한 것으로 평가했음을 나타냅니다. 각 항목의 평균 CVR은 전체 테스트의 내용 타당성을 나타내는 데 사용할 수 있습니다.

Lawshe(1975)는 테스트 평가자가 주어진 수의 주제 전문가를 기준으로 돌파구의 예상 확률을 달성하는 데 필요한 계산된 CVR의 크기를 결정하는 데 사용할 수 있는 CVR 임계값 표를 제공했습니다. 이 게시된 표를 자세히 살펴보면 이상점이 드러납니다. Schipper의 표에서 CVR의 임계값은 전문가 40명(최소값=0.29)에서 전문가 9명(최소값=0.78)까지 단조롭게 증가하지만 전문가 8명에서 갑자기 감소합니다(최소값은 0.75). 가장 높은 값은 7명의 전문가의 경우(최소값은 0.99). 그러나 이 공식을 8명의 검토자에게 적용했을 때, 필요하다고 표시한 7명의 검토자와 다르게 표시한 1명의 검토자의 데이터는 CVR이 0.75가 되었습니다. 0.75가 임계값이 아니라면 1.00의 CVR을 도출하기 위해서는 8명이 필요하다고 표시해야 합니다. 이 경우, CVR을 오름차순으로 정렬하면 리뷰어는 8명이고 해당 값은 1.00이어야 합니다. 이는 8명의 리뷰어에 대한 "완벽한" 값이 다른 수의 리뷰어에 적용되지 않으므로 동일한 원칙을 위반하게 됩니다.

표의 나머지 부분에서 나타나는 단조롭게 증가하는 패턴과의 이러한 차이가 스키퍼의 계산 오류 때문인지, 아니면 타이핑이나 조판 오류 때문인지는 불분명합니다. 윌슨, 팬, 슈미츠키는 2012년에 이 오류를 바로잡으려 시도했지만, 로시의 논문에서 설명을 찾을 수 없었고, 쉬퍼도 임계값 표의 계산 과정을 설명하는 논문을 발표하지 않았다. 연구자들은 스키퍼의 값이 이항분포의 정규 근사치에 가깝다고 믿습니다. 그들은 스키퍼의 값을 새로 계산된 이항값과 비교하면서 Lawshe와 Schipper가 공개된 표를 단측 검정이라고 잘못 표시한 것을 발견했는데, 실제로는 그 값이 양측 검정의 이항값을 반영하고 있었습니다. 이후 윌슨과 동료들은 내용 타당성 비율에 대한 재계산된 임계값 표를 발표하여 여러 유의 수준에서의 임계값을 제공했습니다.

내용 타당성에 대한 심도 있는 논의는 시험 설계에 중요한 의미를 가질 뿐만 아니라, 심리측정학에서 새로운 사고 패턴의 출현을 촉진합니다. 이 과정에서 테스트의 효과를 효과적으로 측정하는 방법을 다시 생각해 다양한 실제 상황에 보다 현명하게 적용할 수 있을까요?

Trending Knowledge

내용 타당성 계산의 신화: 로셰의 공식이 왜 그토록 중요하고 흥미로운가?
<헤더> </헤더> 심리측정학에서 내용타당성이란 측정 도구가 구성개념의 모든 측면을 얼마나 적절하게 나타내는지를 평가하는 것입니다. 예를 들어, 우울 척도가 정서적 측면만을 평가하고 행동적 측면을 무시한다면, 그 척도는 내용 타당성이 부족할 수 있습니다. 주관성이 개입되어 내용 타당성을 판단하는 것이 덜
전문가 평가의 힘: 내용 타당성이 심리 테스트에 중요한 이유는 무엇입니까?
심리측정학에서 내용 타당성(로지스틱 타당성이라고도 함)은 측정 도구가 특정 구성의 모든 측면을 나타낼 수 있는 정도를 나타냅니다. 예를 들어, 우울증 평가 도구가 우울증의 정서적 측면만 평가하고 행동 측면을 무시한다면 그 내용 타당성에 의문이 제기될 것입니다. <blockquote> 콘텐츠 타당성을 판단하는 데는 어느 정도 주관성이
내용 타당성의 비결: 테스트 문항이 실제로 심리적 특성을 반영하도록 보장하는 방법?
심리측정학에서 내용타당성(논리적 타당성이라고도 함)은 측정 도구가 특정 심리적 특성의 모든 측면을 얼마나 잘 표현하는지를 나타냅니다. 예를 들어, 우울 척도가 우울증의 행동적 측면을 고려하지 않고 감정적 측면만을 평가한다면, 그 척도는 내용 타당성이 부족할 수 있습니다. 특정 성격 특성(예: 외향성)의 정의에는 어느 정도 주관성이 따르므로, 내용 타당성을

Responses