데이터 분석과 통계는 오늘날 과학 연구, 특히 가설 검정 과정에서 없어서는 안 될 부분입니다. 그러나 연구자들이 여러 가설 검정을 수행하는 경우 오류 비율을 제어하는 것이 특히 중요해집니다. 이 시점에서 우리는 실험별 오류율(EER)과 가족별 오류율(FWER)의 차이를 이해하고, 왜 하나 또는 둘 다를 통제해야 하는지 알아야 합니다.
가족별 오류율이란 가설 검정을 수행할 때 적어도 하나의 제1종 오류를 범할 확률을 말합니다.
가족별 오류율이라는 개념은 1953년 통계학자 존 튜키가 제안했습니다. 이 테스트는 특정 테스트 세트, 즉 "테스트 패밀리"를 특별히 대상으로 합니다. 통계학에서 제1종 오류는 실제로 사실인 가설(즉, 귀무 가설)을 실수로 기각할 때 발생합니다. 즉, 여러 테스트를 수행했을 때, 하나라도 잘못되면 전체 결과에 영향을 미치게 됩니다.
실험 오류율이란 주어진 실험에서 적어도 하나의 제1종 오류를 범할 확률을 말합니다.
한편, 실험 오류율은 실험 전체에 대한 테스트에 초점을 두며, 여기에는 실험에서 수행된 모든 테스트가 포함됩니다. 이 설정은 결과를 분석할 때 테스트 중 하나라도 거짓이면 전체 결과를 신중하게 고려해야 함을 의미합니다.
이 두 개념의 차이점을 이해하는 것은 연구 결과를 올바르게 해석하는 데 중요합니다. FWER은 일련의 가설 검정에 대한 오차 제어이고, EER은 전체 실험의 반복성과 신뢰성에 더 초점을 맞추기 때문에, 이러한 구분은 학계 연구자들이 가설 검정의 결과를 보다 정확하게 해석하고 성찰하는 데 도움이 될 수 있습니다.
이러한 오류율을 제어하는 방법에는 본페로니 절차, 시닥 절차 등이 있습니다.
이러한 방법은 여러 테스트를 수행할 때 오류 가능성을 줄이도록 설계되었습니다. 예를 들어, 페로니 방법은 유의수준을 여러 검정에 분배하여 전반적인 오류율을 줄입니다. 시닥(Shidak) 방식은 좀 더 강력하지만 약간 개선된 제어 수단을 제공합니다.
가족별 오류율을 통제하는 것은 많은 상황에서 우선순위가 될 수 있으며, 특히 연구 결과가 임상적 또는 정책적 결정에 중대한 영향을 미칠 수 있는 경우에는 더욱 그렇습니다. 이와 대조적으로 실험 오차율은 일반적으로 더 큰 다양성과 유연성이 필요한 방법에서 사용됩니다.
결론요약하자면, 가족별 오류율과 실험 오류율은 모두 다중 가설 검정을 수행할 때 제1종 오류를 방지하기 위한 것이지만, 적용되는 시나리오와 통제 전략은 다릅니다. 이러한 차이점을 이해하면 연구자들이 실험을 설계할 때 더 나은 선택을 내리는 데 도움이 됩니다.
그렇다면 실험을 설계하고 데이터를 분석할 때, 가족별 오류율과 실험 오류율을 제어하는 것 사이의 균형을 어떻게 맞춥니까?