En psicometría, la "validez de contenido" (validez de contenido), o validez lógica, se refiere al grado en que una herramienta de medición puede cubrir todos los aspectos de un constructo específico. Por ejemplo, una escala de depresión que sólo evalúa la dimensión afectiva pero ignora la dimensión conductual puede considerarse carente de validez de contenido. Existe cierta cantidad de subjetividad al juzgar la validez del contenido, lo que requiere un cierto grado de consenso sobre un rasgo de personalidad particular (como la extroversión). Si existe desacuerdo sobre un rasgo de personalidad particular, no se puede lograr una alta validez de contenido.
La validez de contenido difiere de la validez aparente, que se refiere a lo que una prueba parece medir en lugar de lo que la prueba realmente mide.
En las aplicaciones de prueba, la validez aparente evalúa si una prueba "parece válida" para los participantes, administradores y otros observadores técnicamente no expertos. La validez de contenido, por otra parte, requiere la movilización de expertos reconocidos en la materia para evaluar si los elementos de la prueba evalúan el contenido definido, y este proceso de evaluación requiere pruebas estadísticas más rigurosas que la validez aparente. La validez de contenido se encuentra más comúnmente en pruebas académicas y vocacionales, donde los elementos de prueba deben reflejar el conocimiento real requerido para un área temática (como historia) o una habilidad ocupacional (como contabilidad).
En aplicaciones clínicas, la validez de contenido se refiere a la correspondencia entre los elementos de prueba y el contenido de los síntomas de un síndrome.
Un método ampliamente utilizado para evaluar la validez del contenido fue propuesto por C. H. Lawshe. En esencia, se trata de una forma de evaluar la consistencia de la importancia que los revisores o evaluadores otorgan a un elemento. Lawshe (1975) recomendó que los expertos en la materia (SMEs) que participaron en la revisión respondieran la siguiente pregunta para cada ítem: "¿La habilidad o el conocimiento medido por el ítem es 'esencial' para el desempeño del trabajo, 'útil pero no esencial'?" ', o 'útil pero no necesario' para el desempeño del trabajo?" Según Lawshe, si más de la mitad de los revisores dicen que un elemento es necesario, entonces el elemento tiene al menos cierta validez de contenido. Cuando más revisores coinciden en que un artículo es necesario, el grado de validez del contenido es mayor.
Utilizando estos supuestos, Lawshe desarrolló una fórmula llamada índice de validez de contenido.
La expresión de esta fórmula es:
CVR = (ne - N/2) / (N/2)
Donde CVR significa índice de validez de contenido, ne es el número de expertos en la materia marcados como “necesarios” y N es el número total de expertos en la materia. Esta fórmula produce valores que van de +1 a -1, donde los valores positivos indican que al menos la mitad de los expertos calificaron el elemento como necesario. El CVR promedio de los ítems se puede utilizar para indicar la validez de contenido de la prueba general.
Lawshe (1975) proporcionó una tabla de umbrales de CVR que los evaluadores de pruebas pueden usar para determinar el tamaño del CVR calculado necesario para lograr la probabilidad esperada de un avance dado un número dado de expertos en la materia. Una mirada más cercana a esta tabla publicada revela una anomalía. En la tabla de Schipper, el valor crítico de CVR aumenta monótonamente desde 40 expertos (mínimo = 0,29) hasta 9 expertos (mínimo = 0,78), pero disminuye repentinamente en 8 expertos (el valor mínimo es 0,75) y el valor más alto se alcanza en el Caso de 7 expertos (valor mínimo es 0,99). Sin embargo, cuando se aplicó la fórmula a 8 revisores, los datos de 7 revisores que la marcaron como necesaria y 1 revisor que la marcó de manera diferente dieron como resultado un CVR de 0,75. Si 0,75 no es el valor crítico, entonces se necesitarían 8 personas para marcarlos como necesarios para obtener un CVR de 1,00. En este caso, en orden ascendente de CVR, 8 revisores y su valor deberían ser 1,00, lo que violaría el mismo principio, ya que el valor "perfecto" para 8 revisores no se aplicaría a otros números de revisores.
No está claro si esta desviación del patrón monótonamente creciente del resto de la tabla se debe a un error de cálculo de Schipper o a un error de mecanografía o composición tipográfica. Wilson, Pan y Schumsky intentaron corregir el error en 2012, pero no pudieron encontrar una explicación en el artículo de Lawshe, ni tampoco hubo una publicación de Schipper que explicara el proceso de cálculo de la tabla de valores críticos. Los investigadores creen que el valor de Schipper está cerca de la aproximación normal de la distribución binomial. Al comparar los valores de Schipper con los valores binomiales recién calculados, descubrieron que Lawshe y Schipper habían etiquetado incorrectamente las tablas públicas como pruebas de una cola, cuando en realidad los valores reflejaban los valores binomiales de una prueba de dos colas. Posteriormente, Wilson y sus colegas publicaron una tabla de valores críticos recalculados para los índices de validez de contenido, proporcionando valores críticos en múltiples niveles de significancia.
La discusión en profundidad de la validez de contenido no sólo tiene implicaciones importantes para el diseño de pruebas, sino que también promueve el surgimiento de nuevos patrones de pensamiento en psicometría. En el proceso, ¿deberíamos repensar cómo medir eficazmente la eficacia de las pruebas para que puedan aplicarse de forma más inteligente en diversas situaciones de la vida real?