От поверхности к сути: сталкиваясь с удивительной разницей между валидностью и содержательной валидностью, знаете ли вы?

В психометрии «Достоверность контента» (Content Validity), или логическая достоверность, относится к степени, в которой инструмент измерения может охватить все аспекты конкретной конструкции. Например, шкала депрессии, которая оценивает только аффективные аспекты, но игнорирует поведенческие аспекты, может считаться недействительной по содержанию. Существует некоторая субъективность в процессе оценки достоверности содержания, что требует определенной степени консенсуса относительно конкретной черты личности (например, экстраверсии). Если есть разногласия по поводу какой-либо черты личности, то высокая содержательная валидность не может быть достигнута.

Достоверность контента отличается от валидности лица, которая относится к тому, что, по-видимому, измеряет тест, а не к тому, что на самом деле измеряет тест.

В тестовых приложениях валидность лица оценивает, «выглядит ли тест валидным» для участников, администраторов и других технических наблюдателей. Однако валидность содержания требует мобилизации признанных экспертов в данной области для оценки того, соответствуют ли тестовые задания определенному содержанию, и этот процесс оценки требует более строгого статистического тестирования, чем фактическая валидность. Валидность содержания чаще всего встречается в академических и профессиональных тестах, где тестовые задания должны отражать фактические знания, необходимые для предметной области (например, истории) или профессиональных навыков (например, бухгалтерского учета).

В клинических приложениях валидность содержания означает соответствие между элементами теста и содержанием симптомов определенного синдрома.

Методы измерения достоверности контента

Широко используемый метод оценки достоверности контента был предложен Ч. Х. Лоше. По сути, это способ оценить последовательность рецензентов или оценщиков в отношении важности проекта. Лоше (1975) рекомендовал экспертам в данной области (МСП), участвующим в обзоре, ответить на следующие вопросы по каждому пункту: «Являются ли навыки или знания, измеряемые этим элементом, «необходимыми», «полезными, но не необходимыми» для выполнения работы? ?» или «ненужно»? «Согласно описанию Лоуше, если более половины экспертов по обзору говорят, что элемент необходим, то этот элемент имеет хотя бы некоторую содержательную ценность. Когда больше рецензентов согласны с тем, что элемент необходим, степень достоверности содержания выше.

Исходя из этих предположений, Лоуше разработал формулу, называемую коэффициентом достоверности контента.

Выражение этой формулы:

CVR = (ne - N/2) / (N/2)

Среди них CVR представляет собой коэффициент достоверности контента, ne — количество экспертов по предмету, отмеченных как «необходимые», а N — общее количество экспертов по предмету. Эта формула выдает значения в диапазоне от +1 до -1, причем положительные значения указывают на то, что как минимум половина экспертов оценили элемент как необходимый. Средний CVR для элементов можно использовать для указания валидности содержания всего теста.

Лоуше в 1975 году представил таблицу пороговых значений CVR, которую специалисты по оценке тестов могут использовать для определения размера расчетного CVR, необходимого для превышения вероятностных ожиданий с учетом определенного количества экспертов в предметной области. Более глубокий анализ этой опубликованной таблицы обнаруживает аномалию. В таблице Шиппера критическое значение CVR монотонно возрастает от случая 40 экспертов (минимальное значение = 0,29) до случая 9 экспертов (минимальное значение = 0,78), но внезапно падает в случае 8 экспертов (минимальное значение = 0,75). ) и достигает максимального значения (минимальное значение = 0,99) в случае 7 экспертов. Однако при применении формулы к 8 рецензентам данные, полученные от 7, отмеченных как необходимые, и 1, отмеченного как отличающийся, приводят к CVR, равному 0,75. Если 0,75 не является критическим значением, то для получения CVR, равного 1,00, необходимо отметить 8 человек как необходимые. В этом случае, чтобы соответствовать возрастающему порядку CVR, 8 рецензентов и их значение должны быть равны 1,00, что нарушает тот же принцип, поскольку «идеальное» значение 8 рецензентов не применимо к другому количеству рецензентов.

Неясно, связано ли это отклонение от других монотонно возрастающих шаблонов в таблице с ошибкой расчета Шиппера или с ошибкой набора или форматирования. Уилсон, Пан и Шумский попытались исправить эту ошибку в 2012 году, но не смогли найти объяснения в литературе Лоше, а Шиппер не опубликовал публикации, объясняющей процесс расчета таблицы критических значений. Исследователи полагают, что значение Шиппера близко к нормальному приближению биномиального распределения. Сравнивая значения Шиппера с вновь рассчитанными биномиальными значениями, они обнаружили, что Лоуше и Шиппер ошибочно обозначили опубликованные таблицы как односторонние тесты, хотя на самом деле значения отражали биномиальные значения для двусторонних тестов. Впоследствии Уилсон и его коллеги опубликовали таблицу перерасчетов критических значений коэффициентов достоверности контента, предоставив критические значения на нескольких уровнях значимости.

Углубленное обсуждение валидности содержания не только придает большое значение разработке тестов, но и способствует появлению новых моделей мышления в психометрии. Должны ли мы при этом переосмыслить, как эффективно измерять эффективность тестов, чтобы их можно было более разумно применять в различных реальных ситуациях?

Trending Knowledge

Миф о расчете содержательной валидности: почему формула Лоуше так важна и увлекательна?
<заголовок> </header> В психометрии валидность содержания – это оценка того, насколько инструмент измерения адекватно отражает все аспекты конструкции. Например, если шкал
Сила экспертной оценки: почему достоверность контента имеет решающее значение для психологического тестирования?
В психометрии валидность содержания (также известная как логистическая валидность) означает степень, в которой инструмент измерения может отражать все аспекты конкретной конструкции. Например, если ин
Секрет валидности контента: как убедиться, что ваши тестовые задания действительно отражают психологические характеристики?
В психометрии содержательная валидность (также называемая логической валидностью) относится к степени, в которой инструмент измерения представляет все аспекты конкретной психологической черты. Наприме

Responses