No mundo da análise de dados, muitas vezes há alguns fenômenos aparentemente contraditórios que nos lembram de ser cautelosos na interpretação de dados. Entre eles, o famoso "Paradoxo de Simpson" é um exemplo muito inspirador, e o caso de preconceito de gênero na UC Berkeley é uma das aplicações práticas mais representativas desse paradoxo.
O paradoxo de Simpson se refere a uma situação em que, ao considerar vários conjuntos de dados, uma tendência surge em cada grupo, mas quando os dados são combinados, a tendência desaparece ou até mesmo se reverte.
Olhando para a UC Berkeley em 1973, a pesquisa da escola descobriu que a taxa de admissão de candidatos do sexo masculino era maior do que a de candidatas do sexo feminino, um fenômeno que atraiu ampla atenção e discussão. À primeira vista, isso parece indicar que há uma clara discriminação de gênero na escola. No entanto, uma análise mais aprofundada dos dados conta uma história completamente diferente.
Quando as faculdades e departamentos dos candidatos são levados em conta, descobre-se que as candidatas tendem a escolher departamentos mais competitivos, como inglês, enquanto os candidatos tendem a se candidatar a departamentos menos competitivos, como engenharia e negócios. Lugar. Dessa forma, a probabilidade de admissão de candidatas parece ser baixa, mas na verdade é porque os departamentos para os quais elas se candidatam são relativamente difíceis de entrar, o que revela as razões mais profundas por trás dos dados.
O estudo concluiu que o preconceito contra as mulheres nos dados gerais era na verdade muito pequeno e até mostrou uma situação a favor das mulheres.
De acordo com o estudo, apenas quatro dos seis principais departamentos da UC Berkeley têm preconceito significativo contra as mulheres. Em contraste, seis departamentos eram tendenciosos contra os homens, indicando que os dados gerais de admissões precisavam de uma análise estratificada cuidadosa. Este é um exemplo clássico do paradoxo de Simpson: se cada conjunto de dados for considerado separadamente, conclusões completamente diferentes podem ser tiradas.
O paradoxo de Simpson também pode ser encontrado em outros campos. Por exemplo, em um estudo de tratamento de cálculos renais, quando as taxas de sucesso para tratar cálculos grandes e pequenos foram comparadas separadamente, um tratamento teve melhor desempenho em cada categoria, mas quando os dois grupos foram combinados, os resultados opostos foram encontrados. Na verdade, isso ocorre porque o efeito do tratamento é afetado por "variáveis ocultas", como o tamanho dos cálculos e a gravidade da doença.
O paradoxo de Simpson nos diz que vários fatores no processo de interpretação de dados podem afetar os resultados, então devemos ser cautelosos ao interpretar o todo e parte dos dados.
Além disso, um fenômeno semelhante pode ser encontrado na média de rebatidas do beisebol profissional. Um jogador pode ter uma média de rebatidas maior que outro em certos anos, mas quando os dados são combinados, pode ser que o primeiro jogador tenha uma média geral de rebatidas menor. O exemplo de Zan Yimingjie mostra claramente que a estratificação e a integração de dados devem ser consideradas de forma abrangente.
O paradoxo de Simpson não é apenas de grande importância na estatística, mas também nos traz desafios e inspirações ao conduzir análises de dados. Ele lembra constantemente os tomadores de decisão e pesquisadores a pensar de uma perspectiva mais abrangente ao lidar com dados e considerar vários motivos possíveis para o desvio de dados. Este também é o maior desafio que muitas pessoas enfrentam em termos de "intuição" e "lógica" em relação aos dados: cada detalhe nos dados pode ser crucial para a conclusão final.
Portanto, quando revisamos a análise de dados e os resultados em diferentes cenários novamente, podemos sempre manter o pensamento crítico e examinar cuidadosamente a verdade oculta por trás dos dados?