En el mundo del análisis de datos, a menudo hay algunos fenómenos aparentemente contradictorios que nos recuerdan que debemos ser cautelosos al interpretarlos. Entre ellos, la famosa “Paradoja de los Simpson” es un ejemplo muy inspirador, y el caso de sesgo de género en UC Berkeley es una de las aplicaciones prácticas más representativas de esta paradoja.
La paradoja de Simpson se refiere a una situación en la que, al considerar varios conjuntos de datos, surge una tendencia en cada grupo, pero cuando se combinan los datos, la tendencia desaparece o incluso se invierte.
En 1973, cuando nos remontamos a la Universidad de California en Berkeley, la investigación de la escuela descubrió que la tasa de admisión de los postulantes masculinos era mayor que la de las postulantes femeninas, un fenómeno que atrajo amplia atención y debate. A primera vista, esto parecería indicar que existe una clara discriminación de género en la escuela. Sin embargo, un análisis más profundo de los datos cuenta una historia completamente diferente.
Cuando se tienen en cuenta las facultades y departamentos a los que asisten los solicitantes, se descubre que las mujeres tienden a elegir departamentos más competitivos, como inglés, mientras que los hombres tienden a postularse a departamentos menos competitivos, como ingeniería y negocios. Lugar. De esta manera, la probabilidad de admisión de las mujeres solicitantes parece ser baja, pero en realidad se debe a que los departamentos a los que postulan son relativamente difíciles de ingresar, lo que revela las razones más profundas detrás de los datos.
El estudio concluyó que el sesgo contra las mujeres en los datos generales era en realidad muy pequeño e incluso mostró una situación a favor de las mujeres.
Según el estudio, sólo cuatro de los seis departamentos principales de UC Berkeley tienen un sesgo significativo contra las mujeres. Por el contrario, seis departamentos presentaban sesgos contra los hombres, lo que indica que los datos generales de admisiones necesitaban un análisis estratificado cuidadoso. Éste es un ejemplo clásico de la paradoja de Simpson: si se considera cada conjunto de datos por separado, se pueden extraer conclusiones completamente diferentes.
La paradoja de Simpson también se puede encontrar en otros campos. Por ejemplo, en un estudio sobre el tratamiento de cálculos renales, cuando se compararon por separado las tasas de éxito de los tratamientos de cálculos grandes y pequeños, un tratamiento tuvo mejores resultados en cada categoría, pero cuando se combinaron los dos grupos, se obtuvieron resultados opuestos. De hecho, Esto se debe a que el efecto del tratamiento se ve afectado por "variables ocultas", como el tamaño de los cálculos y la gravedad de la enfermedad.La paradoja de Simpson nos dice que varios factores en el proceso de interpretación de datos pueden afectar los resultados, por lo que debemos ser cautelosos al interpretar la totalidad y parte de los datos.
Además, un fenómeno similar se puede encontrar en el promedio de bateo del béisbol profesional. Un jugador puede tener un promedio de bateo más alto que otro en ciertos años, pero cuando se combinan los datos, puede mostrarse que el ex jugador tuvo un promedio de bateo general más bajo. El ejemplo de Zan Yimingjie muestra claramente que la estratificación y la integración de los datos deben considerarse de manera integral.
La paradoja de Simpson no sólo tiene gran importancia en estadística, sino que también nos plantea desafíos e inspiraciones a la hora de realizar análisis de datos. Recuerda constantemente a los tomadores de decisiones y a los investigadores que deben pensar desde una perspectiva más integral al enfrentar los datos y considerar varias posibles razones para la desviación de los mismos. Éste es también el mayor desafío que muchas personas enfrentan en términos de “intuición” y “lógica” con respecto a los datos: cada detalle de los datos puede ser crucial para la conclusión final.Por lo tanto, cuando revisamos nuevamente el análisis de datos y los resultados en diferentes escenarios, ¿podemos mantener siempre el pensamiento crítico y examinar cuidadosamente la verdad oculta detrás de los datos?