Trong thống kê, tỷ lệ lỗi thông minh theo nhóm (FWER) đề cập đến xác suất xảy ra một hoặc nhiều phát hiện sai (lỗi Loại I) trong nhiều thử nghiệm giả thuyết. Đây là khái niệm quan trọng dành cho các nhà nghiên cứu muốn giảm tỷ lệ lỗi khi thực hiện nhiều thử nghiệm.
John Tukey đưa ra khái niệm về tỷ lệ lỗi loại họ vào năm 1953 để đo xác suất xảy ra lỗi Loại I trong một nhóm cụ thể.
Khái niệm về tỷ lệ lỗi gia đình nằm trong khuôn khổ thống kê quan trọng, bao gồm các khái niệm liên quan đến thí nghiệm. Ryan đã đề xuất Tỷ lệ lỗi thông minh trong thử nghiệm vào năm 1959, đại diện cho xác suất xảy ra lỗi Loại I trong một thử nghiệm. Tỷ lệ lỗi thử nghiệm có thể được coi là một tập hợp các bài kiểm tra trong đó tất cả các bài kiểm tra trong bộ đều được kiểm soát thống nhất.
Trong thống kê, từ "gia đình" có nhiều định nghĩa. Hochberg và Tamhane (1987) định nghĩa một "họ" là "bất kỳ tập hợp suy luận nào có tính đến một số thước đo sai số toàn diện một cách có ý nghĩa." Định nghĩa này nhấn mạnh tính chính xác và các hiệu ứng lựa chọn trong phân tích thống kê.
Khi tiến hành nhiều thử nghiệm giả thuyết, một số kết quả có thể xảy ra. Ví dụ: giả sử có m giả thuyết, số lượng giả thuyết đúng và số lượng giả thuyết sai sẽ ảnh hưởng đến kết luận thống kê cuối cùng.
Cốt lõi của tỷ lệ lỗi gia đình là kiểm soát ít nhất một lỗi Loại I.
Có một số phương pháp truyền thống để kiểm soát tỷ lệ lỗi mang tính chất gia đình. Nổi tiếng nhất bao gồm:
Lấy quy trình Bonferroni làm ví dụ, một phương pháp rất đơn giản kiểm soát tỷ lệ lỗi gia đình tổng thể bằng cách chia mức ý nghĩa của từng kiểm định giả thuyết cho tổng số lần kiểm định.
Nghiên cứu đã chỉ ra rằng phương pháp bậc thang của Holm mạnh hơn phương pháp Bonferroni và có thể kiểm soát hiệu quả tỷ lệ lỗi của tất cả các giả định.
Khi kiểm tra các giả thuyết, các nhà thống kê cũng cần xem xét sự phụ thuộc giữa các lần kiểm tra. Các phương pháp truyền thống như Bonferroni và Holm cung cấp một giải pháp tương đối thận trọng phù hợp để phát hiện sự phụ thuộc kiểm định chéo trong nhiều giả thuyết.
Tuy nhiên, bản chất bảo thủ của các phương pháp này cũng có nghĩa là hiệu suất của chúng có thể bị hạn chế bởi một số loại cấu trúc phụ thuộc. Trong một số trường hợp, việc áp dụng các chiến lược lấy mẫu lại, chẳng hạn như giới thiệu các phương pháp khởi động và thay thế, có thể cải thiện khả năng kiểm soát tỷ lệ lỗi và nâng cao hiệu suất phát hiện.
Trong tất cả các chiến lược này, kiểm soát tỷ lệ lỗi dựa trên dòng sản phẩm cung cấp khả năng bảo vệ nghiêm ngặt hơn so với kiểm soát Tỷ lệ phát hiện sai (FDR).
Điều đáng lưu ý là mỗi phương pháp đều có điểm mạnh và điểm yếu riêng trong việc kiểm soát tỷ lệ lỗi. Điều quan trọng là phải lựa chọn chiến lược kiểm soát phù hợp dựa trên nền tảng nghiên cứu và đặc điểm của giả thuyết. Hơn nữa, việc kiểm soát tỷ lệ sai sót mang tính gia đình thường là một phần trong nỗ lực giảm thiểu sự không chắc chắn và rủi ro khi ra quyết định, điều này rất quan trọng trong nghiên cứu khoa học.
Về lâu dài, làm thế nào để cân bằng giữa việc kiểm soát tỷ lệ lỗi và duy trì giá trị của kết quả sẽ tiếp tục là một thách thức trong nghiên cứu thống kê. Trong bối cảnh này, sự đổi mới của John Tukey đáng để chúng ta phản ánh và tác động của nó đối với khoa học dữ liệu sẽ thay đổi như thế nào?