En diversos campos, como la economía, las ciencias sociales y quizás incluso la medicina, el uso de valores p parece haberse convertido en un entendimiento tácito. Sin embargo, la interpretación de este número es a menudo controvertida. Muchos científicos de datos e investigadores dicen que el verdadero significado del valor p a menudo se malinterpreta, lo que lo hace vago en la comunidad académica. Por tanto, esto plantea una serie de preguntas importantes sobre la relación del valor p con la hipótesis nula.
El valor p es una medida de probabilidad basada en la hipótesis nula que refleja cuán extrema sería la estadística de prueba observada si la hipótesis nula fuera verdadera.
Según la definición estadística, la hipótesis nula es la hipótesis que se está probando, generalmente asumiendo que no existe un determinado efecto o diferencia. Por ejemplo, si un estudio está diseñado para probar la eficacia de un medicamento para una determinada enfermedad, la hipótesis nula podría ser "el medicamento no tiene efecto". El valor p es una herramienta que se utiliza para cuantificar esta hipótesis. En concreto, representa la probabilidad de obtener un resultado o un resultado más extremo si la hipótesis es cierta. Si el valor p es muy pequeño, indica que es extremadamente improbable que los resultados observados ocurran dada la hipótesis nula, lo que puede llevar al investigador a rechazar la hipótesis nula.
En 2016, la Asociación Estadounidense de Estadística (ASA) emitió una declaración en la que afirmaba que "el valor p no mide la probabilidad de que la hipótesis de investigación sea verdadera, ni indica la probabilidad de que los datos se hayan producido por casualidad". /p>
En respuesta a esto, muchos académicos y estadísticos han pedido una reevaluación del uso de los valores p. Argumentan que el valor p no representa el tamaño de la evidencia ni la significancia de los resultados y no debe utilizarse simplemente como el único criterio para rechazar o aceptar una hipótesis. Es probable que se obtengan conclusiones erróneas, especialmente cuando se realizan múltiples ensayos o el tamaño de la muestra es pequeño.
En la práctica, los investigadores a menudo establecen un "nivel de significancia", normalmente 0,05, lo que significa que cuando el valor p es menor que 0,05, el investigador rechazará la hipótesis nula. Aunque este estándar es ampliamente utilizado en la comunidad estadística, hay muchos problemas ocultos detrás de él. Los estudios que utilizan este estándar a veces ignoran otros factores relevantes como el diseño de las pruebas y la calidad de la medición, lo que lleva a una interpretación incorrecta de los resultados de los datos.
"En campos como la salud mental y la medicina clínica, los investigadores deben considerar todos los aspectos del diseño para garantizar conclusiones razonables".
Por un lado, el tamaño del valor p refleja la confianza del resultado hasta cierto punto; por otro lado, confiar en un solo número como base para la toma de decisiones también tiene riesgos y puede conducir a fenómenos como el "gancho del valor p". En este caso, los investigadores pueden intentar ajustar o filtrar los datos en el análisis para hacerlos significativos en lugar de reflejar objetivamente la situación real.
Vale la pena señalar que el valor p no es solo un número derivado de datos de muestra, sino que también implica la interpretación de toda la muestra. Por lo tanto, además de informar los valores p, la investigación también debe centrarse en otros indicadores estadísticos, como intervalos de confianza, tamaños del efecto, etc. Estas herramientas estadísticas pueden ayudar a proporcionar resultados de análisis más completos.Muchos estadísticos han sugerido que se debería prestar más atención a otros métodos estadísticos inferenciales, como los intervalos de confianza y los cocientes de verosimilitud, en lugar de confiar únicamente en los valores p para sacar conclusiones.
Estos debates han impulsado un replanteamiento de los métodos estadísticos en la economía y otros campos científicos. En 2019, la ASA formó un grupo especial para revisar el uso de métodos estadísticos en la investigación científica. Señalan que diferentes medidas de incertidumbre pueden complementarse entre sí y enfatizan que "cuando los valores p y las pruebas de significancia se aplican e interpretan correctamente, pueden mejorar el rigor de las conclusiones extraídas de los datos". Por lo tanto, es especialmente importante encontrar herramientas estadísticas adecuadas e interpretar correctamente los datos.
En general, la relación entre el valor p y la hipótesis nula no es simple ni clara, sino que contiene más intersecciones de métodos y teorías científicas. Quizás el verdadero desafío no sea sólo cómo calcular o interpretar los valores p, sino cómo garantizar que se utilicen de forma correcta y razonable en la investigación. ¿Alguna vez ha pensado en cómo utilizar adecuadamente el valor p en su investigación, en lugar de confiar únicamente en su tamaño para tomar decisiones?