В психометрии валидность содержания – это оценка того, насколько инструмент измерения адекватно отражает все аспекты конструкции. Например, если шкала депрессии оценивает только эмоциональные аспекты, но игнорирует поведенческие аспекты, шкала может оказаться недействительной по содержанию. Субъективность делает определение достоверности содержания менее четким, поскольку интерпретации конкретных черт личности, таких как экстраверсия, часто расходятся. Если среди экспертов существуют разногласия в понимании той или иной черты личности, добиться высокой валидности содержания будет сложно.
Достоверность контента отличается от достоверности лица. Лицевая валидность лишь оценивает, кажется ли тест действительным, но на самом деле не отражает то, что он на самом деле измеряет.
Точка лицевой валидности заключается в том, кажется ли тест «работающим» для участников тестирования, администраторов и других технически неподкованных наблюдателей. Например, когда кандидаты видят фрагмент материала, думают ли они, что он проверит их знания или навыки? Напротив, валидность контента требует привлечения профессиональных рецензентов контента для оценки того, отражают ли тестовые элементы определенный контент, а также требует более строгого статистического тестирования, чем валидность лица. Валидность содержания часто упоминается в академических и профессиональных тестах, поскольку тестовые задания должны отражать знания, необходимые в конкретной профессиональной области (например, истории) или профессиональных навыках (например, бухгалтерском учете). В клинических условиях валидность содержания означает соответствие между элементами теста и содержанием заболевания.
Метод измерения достоверности контента, предложенный Лоше, в основном оценивает степень согласия между оценщиками. Этот метод широко используется и сегодня.
Известный метод, предложенный Лоше в 1975 году, предназначен для оценки мнения рецензентов о том, является ли проект «необходимым». По словам Лоше, каждый эксперт-рецензент отвечает на вопрос по каждому заданию теста: «Являются ли навыки или знания, измеряемые этим заданием, «обязательными», «полезными, но не необходимыми» или «ненужными»?» Если более половины рецензентов считают, что задание необходимо, то задание имеет хотя бы некоторую степень валидности содержания. И когда больше рецензентов соглашаются с необходимостью статьи, степень достоверности содержания соответственно возрастает. Поэтому Лоуше разработал формулу, названную коэффициентом достоверности контента.
Коэффициенты достоверности контента рассчитываются в пределах от +1 до -1. Положительные значения указывают на то, что как минимум половина экспертов-рецензентов считают этот элемент необходимым.
В ходе дальнейшего изучения метода Лоуша ученые обнаружили некоторые необычные численные изменения в требуемом минимальном коэффициенте достоверности контента при использовании восьми рецензентов. Этот феномен привлек внимание таких ученых, как Уилсон, Пан и Шумский, которые предложили переоценку этих ценностей в 2012 году. Сравнивая рассчитанные ими значения биномиального распределения со значениями Шиппера, ученые обнаружили, что таблицы, помеченные Лоуше и Шиппером, на самом деле были результатами двустороннего теста, но были ошибочно помечены как односторонний тест, что спутало исходные значения. Такие ошибки приводят к несоответствию пороговых значений коэффициента достоверности контента при расчете с использованием разного количества рецензентов.
Поэтому переоценка коэффициентов достоверности контента имеет решающее значение. Этот процесс перерасчета предоставляет ценную информацию, которая позволяет нам изучить важность и влияние достоверности контента в рамках новой структуры понимания. Эта серия исследований не только выявила возможные предвзятости в разработке и оценке тестов, но и побудила академическое сообщество задуматься о надежности и достоверности измерения содержания.
От теории к практике: коэффициент достоверности контента Лоуше — это не просто набор цифр. Это также гарантия того, что тесты, которые мы используем, действительно отражают те черты личности или поведенческие стандарты, которые нас интересуют.
Обсуждая вопрос валидности контента, мы не можем не задаться вопросом, как нам найти баланс между субъективностью и объективностью, а затем повысить уверенность в результатах теста?