데이터 분석의 세계에는 모순되는 것처럼 보이지만 데이터 해석 시 주의를 환기시키는 현상이 종종 있습니다. 그 중 유명한 '심슨의 역설'이 감동적인 사례이며, UC 버클리의 성 편견 사례는 이 역설을 실제로 적용한 가장 대표적인 사례 중 하나입니다.
심슨의 역설(Simpson's paradox)은 여러 데이터 세트를 고려하면 각 그룹에서 특정 추세가 나타나지만 데이터를 합치면 추세가 사라지거나 심지어 반전되는 상황을 말합니다.
1973년 UC Berkeley를 돌이켜보면 이 학교의 연구 결과에 따르면 남성 지원자의 입학률이 여성 지원자보다 높았으며 이는 광범위한 관심과 논의를 불러일으켰습니다. 언뜻 보면 이는 학교에서의 노골적인 성차별을 나타내는 것처럼 보일 수도 있습니다. 그러나 데이터를 추가로 분석해 보면 상황은 완전히 달라집니다.
지원자의 학과를 고려하면, 여성 지원자는 영어과 등 경쟁이 치열한 학과를 선택하는 경향이 있는 반면, 남성 지원자는 공학, 경영 등 상대적으로 경쟁이 덜한 학과에 지원하는 경향이 있는 것으로 나타났습니다. 이처럼 여성 지원자의 합격 확률은 낮은 것 같지만 실제로는 이들이 지원하는 학과의 입학이 상대적으로 어렵기 때문인 것으로 나타나, 그 이유를 알 수 있는 데이터이다.
연구 결과 전체 데이터에서 여성에 대한 편견은 실제로 매우 적었고 심지어 여성을 선호하는 것으로 나타났습니다.
연구에 따르면 UC Berkeley의 6개 주요 학과 중 4개 학과만이 여성에 대한 상당한 편견을 갖고 있습니다. 반면 6개 학과에서는 남성에 대한 편견이 있어 전체 입학 데이터에 신중한 계층화가 필요함을 시사합니다. 이것은 심슨의 역설의 전형적인 예입니다. 각 데이터 세트를 개별적으로 고려하면 매우 다른 결론에 도달할 수 있습니다.
심슨의 역설은 다른 분야에서도 찾아볼 수 있습니다. 예를 들어, 신장 결석 치료에 대한 연구에서 큰 결석과 작은 결석을 별도로 치료할 때 각 범주에서 한 가지 치료가 더 잘 수행되었지만 두 그룹을 통합하면 반대 결과가 나타났습니다. 실제로 "치료의 효과는"에 영향을 받습니다. 결석의 크기, 상태의 심각성과 같은 숨겨진 변수'입니다.
심슨의 역설(Simpson's Paradox)은 데이터를 해석하는 과정에서 다양한 요인이 결과에 영향을 미칠 수 있으므로 데이터의 전체와 일부에 대한 해석은 주의 깊게 다루어야 함을 알려줍니다.
또한 프로야구 타율에서도 비슷한 현상을 찾아볼 수 있다. 어떤 선수는 몇 년 동안 다른 선수보다 높은 타율을 기록할 수 있지만, 그 숫자를 합치면 전자의 전체 타율이 더 낮은 것으로 나타날 수 있습니다. Zhan Yimingjie의 사례는 데이터의 계층화와 통합이 포괄적으로 고려되어야 함을 명확하게 보여줍니다.
심슨의 역설은 통계적으로 중요할 뿐만 아니라 데이터 분석에 대한 도전과 계시를 제시합니다. 이는 정책 입안자와 연구자들에게 데이터를 접할 때 보다 포괄적인 관점에서 생각하고 데이터 편향의 다양한 원인을 고려하도록 지속적으로 상기시킵니다. 이는 많은 사람들이 데이터에 대해 갖고 있는 '직관'과 '논리'에 대한 가장 큰 도전이기도 합니다. 데이터의 모든 세부사항은 최종 결론과 관련될 수 있습니다.
그러므로 다양한 시나리오에서 데이터 분석과 결과를 다시 검토할 때 항상 비판적 사고를 유지하고 데이터 뒤에 숨겨진 진실을 주의 깊게 조사할 수 있을까요?