Na pesquisa científica e na análise estatística, o valor p é um conceito estatístico importante, mas muitas vezes confunde as pessoas. O valor p é refletido em testes falsos positivos, especialmente quando realizamos testes de hipótese nula, e representa a probabilidade de os dados observados serem pelo menos extremos, dado que a hipótese nula é verdadeira. No entanto, mal-entendidos e usos incorretos de valores-p são comuns em matemática e ciências afins. Portanto, precisamos nos aprofundar no que realmente significa o valor p e suas aplicações.
Embora relatar valores-p para testes estatísticos seja uma prática comum em muitas publicações acadêmicas, o mal-entendido e o uso incorreto de valores-p tornou-se um tópico importante.
Na estatística, toda conjectura sobre uma distribuição de probabilidade desconhecida dos dados observados é chamada de hipótese estatística. Se apenas declararmos uma hipótese e o objetivo do teste estatístico for verificar se a hipótese é razoável, então este tipo de teste é chamado de teste de hipótese nula. A hipótese nula significa que a propriedade da hipótese não existe. Normalmente, a hipótese nula assume que algum parâmetro, como uma correlação ou diferença média, é zero. Quando realizamos uma inspeção, calculamos uma estatística numérica e a utilizamos para inferir se os dados observados são estatisticamente significativos.
Por definição, o valor p é a probabilidade de obter uma estatística de detecção que seja pelo menos tão extrema quanto o resultado observado se a hipótese nula for verdadeira. Portanto, quanto menor o valor p, mais podemos duvidar da validade da hipótese nula. No entanto, isso não significa que a hipótese nula seja falsa.
A American Statistical Association afirma: "O valor p não mede a chance de a hipótese da pesquisa ser verdadeira, nem mede a chance de os dados terem sido gerados aleatoriamente."
O valor p é amplamente utilizado em testes de hipóteses estatísticas. Antes de conduzir um estudo, o pesquisador seleciona um modelo (hipótese nula) e um nível de significância α (mais comumente 0,05). Se o valor p for menor que α, significa que os dados observados são suficientemente inconsistentes com a hipótese nula para que possamos rejeitar a hipótese. No entanto, muitos estatísticos levantaram a questão do uso indevido e da interpretação incorreta dos valores p, como tratar qualquer valor p inferior a 0,05 como apoio à hipótese alternativa.
Outros estatísticos recomendam abandonar os valores p e focar mais em outros métodos estatísticos inferenciais, como intervalos de confiança, razões de verossimilhança ou fatores de Bayes.
Normalmente, o cálculo de um valor p requer a identificação da estatística do teste, o teste unilateral ou bicaudal que o pesquisador escolheu realizar e os dados. Se a hipótese nula for verdadeira, os valores p devem ser distribuídos uniformemente entre 0 e 1, o que significa que quando você repete o mesmo teste, geralmente obterá valores p diferentes, mesmo que a hipótese nula seja verdadeira.
Suponha que você conduza um experimento para testar se uma moeda é justa. Os resultados mostraram que em 20 lançamentos de moeda, cara saiu 14 vezes. Neste caso, a hipótese nula é que a moeda é honesta. Se realizarmos testes de cauda direita, ou seja, focarmos em confirmar se a moeda está tendenciosa para cara, então o valor p é a probabilidade de pelo menos 14 caras ocorrerem se a moeda for justa.
Em resumo, os valores-p são, sem dúvida, parte integrante das estatísticas, mas devemos ter cuidado ao usá-los como ferramenta para julgar hipóteses de pesquisa. A consideração cuidadosa do contexto do valor p e do desenho de pesquisa correspondente é uma etapa necessária. Você já tem uma compreensão mais profunda desse número?