Dans le domaine des statistiques, la valeur p est sans aucun doute l’un des concepts les plus populaires et les plus controversés. La valeur p représente la probabilité d’observer un résultat au moins aussi extrême que la statistique de test lorsque l’hypothèse nulle est vraie. Ce numéro est crucial pour l’interprétation et la publication des résultats de recherche, mais son utilisation abusive et son incompréhension sont très répandues dans la communauté scientifique.
L'American Statistical Association déclare : « La valeur p ne mesure pas la probabilité que l'hypothèse de recherche soit vraie ou la probabilité que les données aient été générées uniquement par le hasard. »
En statistique, chaque hypothèse sur la distribution des données observées est appelée hypothèse statistique. Lorsque nous testons une hypothèse spécifique, l’hypothèse nulle, notre objectif est de tester si cette hypothèse est vraie étant donné que l’hypothèse nulle est vraie.
L'hypothèse nulle stipule généralement qu'un paramètre (comme une corrélation ou une différence moyenne) est nul dans le contexte spécifique de l'étude. Par exemple, supposons qu'une statistique de test T suive une distribution normale standard N(0, 1) sous l'hypothèse nulle. Si nous rejetons l'hypothèse nulle, cela signifie généralement que nous soutenons dans une certaine mesure une considération non nulle. Mais cela ne couvre pas l’ensemble des données que nous connaissons.
Le calcul de la valeur p est au cœur des tests statistiques. Si les observations sont tirées d’une distribution et qu’une statistique est calculée, la valeur p est la probabilité que la statistique soit vraie si l’hypothèse est vraie. Par exemple, si la statistique t est la statistique de résultat d’intérêt, la valeur p peut être considérée comme la probabilité d’observer une valeur inférieure ou égale à t étant donné l’hypothèse nulle H0.
L'hypothèse nulle H0 signifie généralement qu'un paramètre est nul. Pour la valeur critique acceptée α, lorsque la valeur p est inférieure ou égale à α, nous rejetterons l'hypothèse nulle.
Lors de la réalisation d'un test d'hypothèse, les chercheurs définissent à l'avance le niveau de signification α, généralement 0,05. Si la valeur p calculée est inférieure à cette valeur, cela signifie que les données observées sont suffisamment incompatibles avec l’hypothèse nulle pour la rejeter. Mais cela ne signifie pas que l’hypothèse nulle est absolument fausse.
L’American Statistical Association note que les valeurs p sont souvent mal utilisées. En particulier, certains chercheurs ont tendance à supposer que l’hypothèse alternative est valide simplement parce que la valeur p est inférieure à 0,05, tout en ignorant l’importance d’autres preuves à l’appui. De nombreux statisticiens suggèrent que la valeur p ne doit pas être considérée comme un outil permettant de mesurer l’exactitude d’une hypothèse, mais doit être combinée à d’autres indicateurs statistiques pour réaliser une évaluation complète.
Par exemple, si nous voulons tester si une pièce est équitable, supposons que nous la lançons 20 fois et qu'elle tombe sur face 14 fois. Notre hypothèse nulle est que la pièce est équitable. Dans ce cas, nous calculons la valeur p pour déterminer la probabilité d'obtenir autant de faces à partir d'une pièce de monnaie équitable. Si cette probabilité est très faible, nous avons des raisons de douter de l’équité de la pièce.
Conclusion« La valeur p ne fait pas de déclaration sur la justesse d’une hypothèse, mais teste plutôt la force de l’incompatibilité des données observées avec un modèle particulier. »
La valeur p est sans aucun doute l’un des outils indispensables de la recherche scientifique, mais elle doit être utilisée avec prudence. Pour les chercheurs, comprendre la nature de la valeur p, les limites qu’elle entraîne et apprendre à interpréter et à rapporter correctement la valeur p les aidera à interpréter les données plus correctement. Dans ce cas, quels sont les critères d’évaluation clés les plus nécessaires au progrès scientifique ?