В психометрии валидность содержания (также известная как логистическая валидность) означает степень, в которой инструмент измерения может отражать все аспекты конкретной конструкции. Например, если инструмент оценки депрессии оценивает только аффективные аспекты депрессии и игнорирует поведенческие аспекты, достоверность его содержания будет поставлена под сомнение.
Существует определенная степень субъективности в оценке достоверности контента, что требует определенного консенсуса относительно определенной черты личности, например экстраверсии.
Валидность контента отличается от валидности лица, которая связана с тем, кажется ли тест действительным на первый взгляд, а не с тем, что на самом деле измеряет тест. Валидность лица оценивает, «кажется ли тест работающим», обычно для тестируемых, которые его сдают, администраторов, решивших использовать тест, и других нетехнических наблюдателей.
Для проверки достоверности контента необходимо привлекать признанных экспертов в профессиональной области для оценки того, могут ли тестовые задания полностью отражать определенный контент, и проводить более строгие статистические тесты, чем проверка фактической достоверности. Валидность содержания обычно применяется в академических и профессиональных тестах, где тестовые задания должны отражать конкретную предметную область, например историю, или профессиональные навыки, например бухгалтерский учет.
В клинических условиях валидность содержания связана с соответствием между элементами теста и содержанием синдрома.
Ч.Х. Лоуше предложил широко используемый метод измерения достоверности контента. Этот метод в основном используется для оценки степени согласия между оценщиками или судьями по конкретному вопросу. В статье о тестировании перед приемом на работу Лоуше (1975) рекомендовал каждому участнику дискуссии ответить на следующий вопрос по каждому пункту: «Являются ли навыки или знания, измеряемые этим пунктом, «существенными» для выполнения работы?» или «Полезны, но не необходимы»? "ненужно"?"
Согласно гипотезе Лоше, если более половины членов экспертной комиссии считают, что предмет «необходим», значит, этот предмет имеет хотя бы некоторую содержательную ценность. Степень достоверности контента увеличивается по мере того, как все больше оценщиков соглашаются с тем, что элемент необходим.
Основываясь на этих предположениях, Лоуше разработал формулу, названную коэффициентом достоверности контента (CVR).
Расчет по этой формуле выглядит следующим образом: CVR = (ne - N/2) / (N/2)
, где CVR code> означает коэффициент достоверности контента,
ne
— количество экспертов, которые считают элемент «необходимым», а N
— общее количество эксперты в составе комиссии. Значения этой формулы варьируются от +1 до -1, при этом положительные значения указывают на то, что как минимум половина экспертов считают проект необходимым. Средний CVR всех заданий также можно рассматривать как показатель общей валидности содержания теста.
Лоуше (1975) также предоставляет таблицу критических значений CVR, чтобы специалисты по оценке тестов могли судить, превышает ли рассчитанное значение CVR случайные ожидания на основе количества экспертных групп. Таблица была рассчитана другом Лоуша Лоуэллом Шиппером. Внимательный осмотр этого публичного стола выявил аномалию. В таблице Шиппера критическое значение CVR постепенно увеличивается при уменьшении числа экспертов с 40 (минимум = 0,29) до 9 (минимум = 0,78), но неожиданно снижается при 8 экспертах (минимум = 0,75), затем достигает его верхний предел (минимум = 0,99) с 7 экспертами.
Однако если эту формулу применить к 8 оценщикам, результат 7 «обязательных» и 1 «других» отзывов составит значение CVR 0,75. Если бы 0,75 не было критическим значением, то все 8 оценщиков должны были бы оценить его как «существенное», что привело бы к CVR 1,00. В этом случае, чтобы сохранить CVR в порядке возрастания, его значение обязательно будет равно 1,00 в случае 8 оценщиков, что нарушит тот же принцип, поскольку у вас будет «идеальное» значение, необходимое для 8 оценщиков, но нет соответствующих значений. значения для остальных оценок выше или ниже 8 оценщиков.
Уилсон, Пан и Шумски (2012) попытались исправить эту ошибку, но не нашли объяснения ни в работе Лоуша, ни в публикации Шиппера, описывающей, как рассчитать таблицу критических значений. Уилсон и его коллеги определили, что значение Шиппера близко к нормальному приближению биномиального распределения. Сравнивая значения Шиппера с недавно рассчитанными биномиальными значениями, они обнаружили, что Лоуше и Шиппер ошибочно маркировали опубликованные ими таблицы как односторонние тесты, хотя на самом деле значения отражали двусторонние тестовые значения биномиального распределения. Впоследствии Уилсон и его коллеги опубликовали перерасчет критических значений коэффициентов достоверности контента и предоставили таблицу критических значений единичного шага на нескольких альфа-уровнях.
Достоверность содержания играет жизненно важную роль в психологическом тестировании, поскольку она гарантирует, что тест точно оценивает конструкции, необходимые для отражения реальных ситуаций. Поскольку использование тестов в различных условиях становится все более распространенным, акцент на достоверность содержания в профессиональном и академическом мире становится все более очевидным. Рассматривая будущие разработки тестов, мы должны спросить себя: как можно более эффективно повысить валидность содержания психологических тестов, чтобы обеспечить более точные оценки?