Em psicometria, "validade de conteúdo" (content validity), ou validade lógica, refere-se à extensão em que uma ferramenta de medição pode cobrir todos os aspectos de um construto específico. Por exemplo, uma escala de depressão que avalia apenas a dimensão afetiva, mas ignora a dimensão comportamental, pode ser considerada sem validade de conteúdo. Há uma certa subjetividade no julgamento da validade do conteúdo, o que requer um certo grau de consenso sobre um traço de personalidade específico (como extroversão). Se houver desacordo sobre um traço de personalidade específico, não será possível alcançar alta validade de conteúdo.
A validade de conteúdo difere da validade aparente, que se refere ao que um teste parece medir e não ao que o teste realmente mede.
Em aplicações de teste, a validade aparente avalia se um teste "parece válido" para participantes, administradores e outros observadores tecnicamente não especialistas. A validade de conteúdo, por outro lado, requer a mobilização de especialistas reconhecidos no assunto para avaliar se os itens do teste avaliam o conteúdo definido, e esse processo de avaliação requer testes estatísticos mais rigorosos do que a validade aparente. A validade de conteúdo é mais comumente encontrada em testes acadêmicos e vocacionais, onde os itens de teste precisam refletir o conhecimento real exigido para uma área de estudo (como história) ou habilidade ocupacional (como contabilidade).
Em aplicações clínicas, a validade de conteúdo se refere à correspondência entre itens de teste e o conteúdo de sintomas de uma síndrome.
Um método amplamente utilizado para avaliar a validade de conteúdo foi proposto por C. H. Lawshe. Esta é essencialmente uma maneira de avaliar a consistência da importância que os revisores ou classificadores atribuem a um item. Lawshe (1975) recomendou que os especialistas no assunto (SMEs) que participam da revisão respondam à seguinte pergunta para cada item: "A habilidade ou conhecimento medido pelo item é 'essencial' para o desempenho do trabalho, 'útil, mas não essencial'?" ', ou 'útil, mas não necessário' para o desempenho do trabalho?" De acordo com Lawshe, se mais da metade dos revisores disserem que um item é necessário, então o item tem pelo menos alguma validade de conteúdo. Quando mais revisores concordam que um item é necessário, o grau de validade de conteúdo é maior.
Usando essas suposições, Lawshe desenvolveu uma fórmula chamada taxa de validade de conteúdo.
A expressão desta fórmula é:
CVR = (ne - N/2) / (N/2)
Onde CVR significa razão de validade de conteúdo, ne é o número de especialistas no assunto marcados como “necessários” e N é o número total de especialistas no assunto. Esta fórmula produz valores que variam de +1 a -1, com valores positivos indicando que pelo menos metade dos especialistas classificou o item como necessário. O CVR médio dos itens pode ser usado para indicar a validade de conteúdo do teste geral.
Lawshe (1975) forneceu uma tabela de limites de CVR que os avaliadores de testes podem usar para determinar o tamanho do CVR calculado necessário para atingir a probabilidade esperada de um avanço dado um determinado número de especialistas no assunto. Um olhar mais atento a esta tabela publicada revela uma anomalia. Na tabela de Schipper, o valor crítico do CVR aumenta monotonicamente de 40 especialistas (mínimo = 0,29) para 9 especialistas (mínimo = 0,78), mas diminui repentinamente em 8 especialistas (o valor mínimo é 0,75), e o valor mais alto é atingido no caso de 7 especialistas (o valor mínimo é 0,99). Entretanto, quando a fórmula foi aplicada a 8 revisores, os dados de 7 revisores que a marcaram como necessária e 1 revisor que a marcou de forma diferente resultaram em um CVR de 0,75. Se 0,75 não for o valor crítico, seriam necessárias 8 pessoas para marcá-lo como necessário para derivar um CVR de 1,00. Nesse caso, em ordem crescente de CVR, 8 revisores e seu valor precisariam ser 1,00, o que violaria o mesmo princípio, já que o valor "perfeito" para 8 revisores não se aplicaria a outros números de revisores.
Não está claro se esse desvio do padrão monotonicamente crescente do restante da tabela se deve a um erro de cálculo de Schipper ou a um erro de digitação ou composição. Wilson, Pan e Schumsky tentaram corrigir o erro em 2012, mas não conseguiram encontrar uma explicação no artigo de Lawshe, nem havia uma publicação de Schipper para explicar o processo de cálculo da tabela de valor crítico. Os pesquisadores acreditam que o valor de Schipper está próximo da aproximação normal da distribuição binomial. Comparando os valores de Schipper com os valores binomiais recém-calculados, eles descobriram que Lawshe e Schipper rotularam incorretamente as tabelas públicas como testes unicaudais, quando na verdade os valores refletiam os valores binomiais de um teste bicaudal. Posteriormente, Wilson e colegas publicaram uma tabela de valores críticos recalculados para proporções de validade de conteúdo, fornecendo valores críticos em vários níveis de significância.
A discussão aprofundada sobre validade de conteúdo não só tem implicações importantes para o design de testes, mas também promove o surgimento de novos padrões de pensamento em psicometria. No processo, deveríamos repensar como medir efetivamente a eficácia dos testes para que eles possam ser aplicados com mais sabedoria em diversas situações da vida real?