En statistiques, le taux d'erreur familial (FWER) fait référence à la probabilité qu'une ou plusieurs fausses découvertes (erreurs de type I) se produisent dans plusieurs tests d'hypothèse. Il s’agit d’un concept clé pour les chercheurs qui souhaitent réduire les taux d’erreur lors de la réalisation de plusieurs tests.
John Tukey a introduit le concept de taux d'erreur de type familial en 1953 pour mesurer la probabilité qu'une erreur de type I se produise dans un groupe spécifique.
Le concept de taux d'erreur familial s'inscrit dans le cadre important des statistiques, qui inclut des concepts liés aux expériences. Ryan a proposé le taux d'erreur par expérience en 1959, qui représente la probabilité qu'une erreur de type I se produise dans une expérience. Le taux d’erreur expérimental peut être considéré comme un ensemble de tests dans lequel tous les tests de l’ensemble sont uniformément contrôlés.
En statistiques, le mot « famille » a plusieurs définitions. Hochberg et Tamhane (1987) définissent une « famille » comme « tout ensemble d'inférences qui prennent en compte de manière significative une mesure globale de l'erreur ». Cette définition met l'accent sur l'exactitude et les effets de sélection dans l'analyse statistique.
Lorsque vous effectuez plusieurs tests d'hypothèses, plusieurs résultats peuvent se produire. Par exemple, en supposant qu’il existe m hypothèses, le nombre d’hypothèses vraies et le nombre de faux positifs affecteront la conclusion statistique finale.
Le cœur du taux d'erreur familiale est de contrôler au moins une erreur de type I.
Il existe plusieurs méthodes traditionnelles pour contrôler les taux d'erreurs familiales. Les plus connus incluent :
Prenons comme exemple la procédure Bonferroni, une méthode très simple qui contrôle le taux d'erreur familial global en divisant le niveau de signification de chaque test d'hypothèse par le nombre total de tests.
Des recherches ont montré que la méthode de l'échelle de Holm est plus puissante que la méthode de Bonferroni et peut contrôler efficacement le taux d'erreur de toutes les hypothèses.
En testant des hypothèses, les statisticiens doivent également prendre en compte les dépendances entre les tests. Les méthodes traditionnelles telles que Bonferroni et Holm fournissent une solution relativement conservatrice adaptée à la détection des dépendances entre tests croisés dans plusieurs hypothèses.
Cependant, la nature conservatrice de ces méthodes signifie également que leurs performances peuvent être limitées par une sorte de structure de dépendance. Dans certains cas, l’adoption de stratégies de rééchantillonnage, telles que l’introduction de méthodes d’amorçage et de remplacement, peut améliorer la capacité à contrôler les taux d’erreur et à améliorer les performances de détection.
Parmi toutes ces stratégies, le contrôle du taux d'erreur basé sur la famille offre une protection plus stricte que le contrôle du taux de fausses découvertes (FDR).
Il convient de noter que chaque méthode possède ses propres forces et faiblesses en matière de contrôle des taux d'erreur. Il est crucial de choisir une stratégie de contrôle appropriée en fonction du contexte de la recherche et des caractéristiques de l'hypothèse. De plus, contrôler les taux d’erreurs familiales fait souvent partie des efforts visant à réduire l’incertitude et le risque décisionnel, ce qui est crucial dans la recherche scientifique.
À long terme, trouver un équilibre entre le contrôle des taux d'erreur et le maintien de la validité des résultats restera un défi dans la recherche statistique. Dans ce contexte, l’innovation de John Tukey mérite notre réflexion, et comment son impact sur la science des données va-t-il évoluer ?