통계에서 FWER(Family-wise error rate)는 다중 가설 검정에서 하나 이상의 잘못된 발견(제1종 오류)이 발생할 확률을 나타냅니다. 이는 여러 테스트를 수행할 때 오류율을 줄이고자 하는 연구자에게 중요한 개념입니다.
John Tukey는 특정 그룹에서 제1종 오류가 발생할 확률을 측정하기 위해 1953년에 가족 유형 오류율이라는 개념을 도입했습니다.
가족 오류율의 개념은 실험과 관련된 개념을 포함하는 통계의 중요한 틀에 속합니다. Ryan은 1959년에 실험에서 제1종 오류가 발생할 확률을 나타내는 실험적 오류율을 제안했습니다. 실험 오류율은 세트의 모든 테스트가 균일하게 제어되는 테스트 세트로 생각할 수 있습니다.
통계에서 '가족'이라는 단어에는 여러 가지 정의가 있습니다. Hochberg와 Tamhane(1987)은 "패밀리"를 "일부 포괄적인 오류 측정을 의미 있게 고려하는 일련의 추론"으로 정의합니다. 이 정의는 통계 분석에서 정확성과 선택 효과를 강조합니다.
<테이블>여러 가설 검정을 수행하면 여러 가지 결과가 발생할 수 있습니다. 예를 들어, m개의 가설이 있다고 가정하면 참 가설의 수와 거짓 긍정의 수가 최종 통계 결론에 영향을 미칩니다.
가족 오류율의 핵심은 하나 이상의 제1종 오류를 통제하는 것입니다.
가족 오류율을 제어하는 몇 가지 전통적인 방법이 있습니다. 가장 잘 알려진 것은 다음과 같습니다:
각 가설 검정의 유의 수준을 총 검정 수로 나누어 전체 가족 오류율을 제어하는 매우 간단한 방법인 Bonferroni 절차를 예로 들어 보겠습니다.
연구에 따르면 Holm의 사다리 방법은 Bonferroni 방법보다 더 강력하며 모든 가정의 오류율을 효과적으로 제어할 수 있습니다.
가설을 테스트할 때 통계학자는 테스트 간의 종속성도 고려해야 합니다. Bonferroni 및 Holm과 같은 전통적인 방법은 여러 가설에서 교차 테스트 종속성을 탐지하는 데 적합한 비교적 보수적인 솔루션을 제공합니다.
그러나 이러한 방법의 보수적인 특성은 일종의 종속성 구조에 의해 성능이 제한될 수 있음을 의미하기도 합니다. 경우에 따라 부트스트래핑 및 교체 방법 도입과 같은 리샘플링 전략을 채택하면 오류율 제어 기능을 향상시키고 탐지 성능을 향상시킬 수 있습니다.
이러한 모든 전략 중에서 제품군 기반 오류율 제어는 FDR(False Discovery Rate) 제어보다 더 엄격한 보호를 제공합니다.
오류율을 제어하는 데에는 각 방법마다 장단점이 있다는 점에 주목할 필요가 있습니다. 연구 배경과 가설의 특성에 따라 적절한 제어 전략을 선택하는 것이 중요합니다. 또한, 가족 오류율을 제어하는 것은 과학 연구에서 매우 중요한 불확실성과 의사결정 위험을 줄이기 위한 노력의 일부인 경우가 많습니다.
장기적으로 오류율 제어와 결과의 유효성 유지 사이의 균형을 맞추는 방법은 통계 연구에서 계속 과제가 될 것입니다. 이러한 맥락에서 John Tukey의 혁신은 우리의 성찰을 받을 가치가 있으며, 그것이 데이터 과학 변화에 어떤 영향을 미치게 될까요?