No campo da estatística, o valor p é, sem dúvida, um dos conceitos mais populares e controversos. O valor p representa a probabilidade de observar um resultado pelo menos tão extremo quanto a estatística do teste quando a hipótese nula é verdadeira. Esse número é crucial para a interpretação e publicação de resultados de pesquisas, mas seu uso indevido e mal-entendido são generalizados na comunidade científica.
A Associação Estatística Americana afirma: "O valor p não mede a probabilidade de que a hipótese da pesquisa seja verdadeira ou a probabilidade de que os dados tenham sido gerados apenas por acaso."
Em estatística, cada suposição sobre a distribuição de dados observados é chamada de hipótese estatística. Quando testamos uma hipótese específica, a hipótese nula, nosso objetivo é testar se essa hipótese é verdadeira, dado que a hipótese nula é verdadeira.
A hipótese nula geralmente afirma que um parâmetro (como uma correlação ou uma diferença média) é zero no contexto específico do estudo. Por exemplo, suponha que uma estatística de teste T segue uma distribuição normal padrão N(0, 1) sob a hipótese nula. Se rejeitarmos a hipótese nula, isso geralmente significa que apoiamos uma consideração diferente de zero até certo ponto. Mas isso não cobre o quadro completo dos dados que conhecemos.
O cálculo do valor p é o cerne dos testes estatísticos. Se observações forem extraídas de uma distribuição e uma estatística for calculada, o valor p é a probabilidade da estatística ser verdadeira se a hipótese for verdadeira. Por exemplo, se a estatística t for a estatística de resultado de interesse, o valor p pode ser visto como a probabilidade de observar um valor menor ou igual a t dada a hipótese nula H0.
A hipótese nula H0 geralmente significa que um parâmetro é zero. Para o valor crítico aceito α, quando o valor p é menor ou igual a α, rejeitaremos a hipótese nula.
Ao conduzir um teste de hipótese, os pesquisadores definirão o nível de significância α com antecedência, geralmente 0,05. Se o valor p calculado for menor que esse valor, significa que os dados observados são suficientemente incompatíveis com a hipótese nula para rejeitá-la. Mas isso não significa que a hipótese nula esteja absolutamente errada.
A Associação Estatística Americana observa que os valores de p são frequentemente mal utilizados. Em particular, alguns acadêmicos tendem a assumir que a hipótese alternativa é válida simplesmente porque o valor de p é menor que 0,05, ignorando a importância de outras evidências de apoio. Muitos estatísticos sugerem que o valor p não deve ser visto como uma ferramenta para medir a correção de uma hipótese, mas deve ser combinado com outros indicadores estatísticos para fazer uma avaliação abrangente.
Por exemplo, se quisermos testar se uma moeda é honesta, suponha que a jogamos 20 vezes e ela dá cara 14 vezes. Nossa hipótese nula é que a moeda é honesta. Neste caso, calculamos o valor p para descobrir a probabilidade de obter tantas caras dada uma moeda honesta. Se essa probabilidade for muito pequena, temos motivos para duvidar da honestidade da moeda.
Conclusão“O valor p não faz uma declaração sobre a correção de uma hipótese, mas testa a força da incompatibilidade dos dados observados com um modelo específico.”
O valor p é, sem dúvida, uma das ferramentas indispensáveis na pesquisa científica, mas deve ser usado com cautela. Para os pesquisadores, entender a natureza do valor p, as limitações que ele traz e aprender como interpretar e relatar adequadamente o valor p os ajudará a interpretar os dados de forma mais correta. Neste caso, quais critérios-chave de avaliação são mais necessários para o progresso científico?