Dans le monde de l'analyse des données, il existe souvent des phénomènes qui semblent contradictoires, mais qui nous rappellent d'être prudents dans l'interprétation des données. Parmi eux, le célèbre « paradoxe de Simpson » est un exemple inspirant, et le cas de préjugés sexistes à l'Université de Berkeley est l'une des applications pratiques les plus représentatives de ce paradoxe.
Le paradoxe de Simpson fait référence à la situation dans laquelle lorsque plusieurs ensembles de données sont considérés, une certaine tendance apparaît dans chaque groupe, mais lorsque les données sont combinées, la tendance disparaît ou même s'inverse.
En regardant l'Université de Berkeley en 1973, les recherches de l'école ont révélé que le taux d'admission des candidats masculins était supérieur à celui des candidates féminines, un phénomène qui a suscité une large attention et de nombreuses discussions. À première vue, cela pourrait sembler indiquer un sexisme flagrant au sein de l’école. Cependant, après une analyse plus approfondie des données, le tableau est complètement différent.
Lorsque les départements des candidats sont pris en compte, on constate que les candidates ont tendance à choisir des départements plus compétitifs, comme le département d'anglais, tandis que la plupart des hommes postulent dans des départements relativement moins compétitifs comme l'ingénierie et les affaires. De cette manière, la probabilité d'admission des candidates semble faible, mais c'est en fait parce que les départements pour lesquels elles postulent sont relativement difficiles d'accès, ce qui révèle les raisons sous-jacentes aux données.
L'étude a conclu que dans l'ensemble des données, les préjugés à l'encontre des femmes étaient en réalité très faibles et semblaient même favoriser les femmes.
Selon une étude, seuls quatre des six principaux départements de l'UC Berkeley ont des préjugés importants à l'égard des femmes. En revanche, six départements présentaient un biais en faveur des hommes, ce qui suggère que les données globales sur les admissions nécessitent une stratification minutieuse. Il s'agit d'un exemple classique du paradoxe de Simpson : si chaque ensemble de données est considéré individuellement, on peut arriver à des conclusions très différentes.
Le paradoxe de Simpson se retrouve également dans d’autres domaines. Par exemple, dans une étude sur le traitement des calculs rénaux, un traitement a donné de meilleurs résultats dans chaque catégorie en traitant séparément les gros et les petits calculs, mais lorsque les deux groupes ont été combinés, les résultats ont montré des résultats opposés. En fait, l'efficacité du traitement est affectée par ". variables cachées » telles que la taille de la pierre et la gravité de la maladie.
Le paradoxe de Simpson nous dit que divers facteurs dans le processus d'interprétation des données peuvent affecter les résultats, de sorte que l'interprétation de l'ensemble et de parties des données doit être traitée avec prudence.
De plus, un phénomène similaire peut être constaté dans les moyennes des frappeurs de baseball professionnel. Un joueur peut avoir une moyenne au bâton plus élevée qu'un autre certaines années, mais lorsque ces chiffres sont combinés, cela peut montrer que le premier a une moyenne au bâton globale inférieure. L'exemple de Zhan Yimingjie montre clairement que la superposition et l'intégration des données doivent être considérées de manière globale.
Le paradoxe de Simpson est non seulement statistiquement significatif, mais pose également des défis et des révélations pour notre analyse de données. Il rappelle constamment aux décideurs politiques et aux chercheurs de penser dans une perspective plus globale et de considérer diverses causes possibles de biais dans les données lorsqu'ils sont confrontés à des données. C'est également le plus grand défi pour « l'intuition » et la « logique » que de nombreuses personnes ont à l'égard des données : chaque détail des données peut être lié à la conclusion finale.
Par conséquent, lorsque nous examinons à nouveau l'analyse des données et les résultats dans différents scénarios, pouvons-nous toujours maintenir un esprit critique et examiner attentivement la vérité cachée derrière les données ?