Nas estatísticas, a taxa de erro familiar (FWER) refere-se à probabilidade de uma ou mais descobertas falsas (erros do Tipo I) ocorrerem em múltiplos testes de hipóteses. Este é um conceito chave para pesquisadores que desejam reduzir as taxas de erro ao realizar múltiplos testes.
John Tukey introduziu o conceito de taxa de erro do tipo familiar em 1953 para medir a probabilidade de um erro do Tipo I ocorrer em um grupo específico.
O conceito de taxa de erro familiar está dentro da importante estrutura da estatística, que inclui conceitos relacionados a experimentos. Ryan propôs a Taxa de Erro Experimental em 1959, que representa a probabilidade de um erro Tipo I ocorrer em um experimento. A taxa de erro experimental pode ser pensada como um conjunto de testes onde todos os testes do conjunto são controlados uniformemente.
Nas estatísticas, a palavra "família" tem diversas definições. Hochberg e Tamhane (1987) definem uma "família" como "qualquer conjunto de inferências que leva em conta de forma significativa alguma medida abrangente de erro". Esta definição enfatiza a correção e os efeitos de seleção na análise estatística.
Ao realizar vários testes de hipóteses, vários resultados podem ocorrer. Por exemplo, assumindo que existem m hipóteses, o número de hipóteses verdadeiras e o número de falsos positivos afetarão a conclusão estatística final.
O núcleo da taxa de erro familiar é controlar pelo menos um erro do Tipo I.
Existem vários métodos tradicionais para controlar as taxas de erros familiares. Os mais conhecidos incluem:
Tomemos como exemplo o procedimento de Bonferroni, um método muito simples que controla a taxa de erro familiar geral dividindo o nível de significância de cada teste de hipótese pelo número total de testes.
A pesquisa apontou que o método escada de Holm é mais poderoso que o método Bonferroni e pode controlar efetivamente a taxa de erro de todas as suposições.
Ao testar hipóteses, os estatísticos também precisam considerar as dependências entre os testes. Métodos tradicionais como Bonferroni e Holm fornecem uma solução relativamente conservadora adequada para a detecção de dependências de testes cruzados em múltiplas hipóteses.
No entanto, a natureza conservadora destes métodos também significa que o seu desempenho pode ser limitado por algum tipo de estrutura de dependência. Em alguns casos, a adoção de estratégias de reamostragem, como a introdução de métodos de bootstrap e de substituição, pode melhorar a capacidade de controlar as taxas de erro e melhorar o desempenho da detecção.
De todas essas estratégias, o controle da taxa de erro baseado na família oferece proteção mais rigorosa do que o controle da Taxa de Descoberta Falsa (FDR).
É importante notar que cada método tem seus próprios pontos fortes e fracos no controle das taxas de erro. É crucial escolher uma estratégia de controle apropriada com base no histórico da pesquisa e nas características da hipótese. Além disso, o controlo das taxas de erro familiares faz muitas vezes parte da tentativa de reduzir a incerteza e o risco de tomada de decisão, o que é crucial na investigação científica.
No longo prazo, como equilibrar o controle das taxas de erro e a manutenção da validade dos resultados continuará a ser um desafio na pesquisa estatística. Neste contexto, a inovação de John Tukey merece a nossa reflexão, e como irá mudar o seu impacto na ciência de dados?