Trong thống kê, Kiểm tra tỷ lệ khả năng là một phương pháp kiểm tra giả thuyết so sánh mức độ phù hợp của hai mô hình thống kê cạnh tranh để xác định mô hình nào phù hợp hơn với dữ liệu được quan sát. Hai mô hình này thường là một mô hình thu được bằng cách tối đa hóa không gian tham số toàn cục và một mô hình áp đặt các ràng buộc. Trong quá trình này, mục đích của thử nghiệm là sử dụng tỷ lệ khả năng của chúng để xác định xem dữ liệu được quan sát có hỗ trợ giả thuyết giữa mô hình đơn giản hơn và mô hình phức tạp hay không. Nói tóm lại, thử nghiệm này giúp chúng tôi xác định các mẫu cơ bản trong dữ liệu.
Ý tưởng cốt lõi của việc kiểm tra tỷ lệ khả năng là nếu mô hình đơn giản hơn (tức là giả thuyết không) được hỗ trợ bởi dữ liệu quan sát được thì khả năng xảy ra của hai mô hình sẽ không khác nhau nhiều hơn sai số lấy mẫu.
Giả sử chúng ta có một mô hình thống kê trong không gian tham số Θ
. Giả thuyết khống thường có nghĩa là tham số θ
nằm trong một tập hợp con Θ₀
nhất định, trong khi giả thuyết thay thế có nghĩa là θ
nằm trong Θ₀
Phần bổ sung của mã>, tức là Θ \ Θ₀
. Thống kê kiểm tra tỷ lệ khả năng có thể được tính như sau:
λLR = -2 ln [ sup
θ∈Θ₀
L(θ
) / supθ∈Θ
L(θ
)
L(θ)
ở đây là hàm khả năng vừa được đề cập. Ý nghĩa của công thức này là khi thiết lập giả thuyết khống, kết quả tính toán sẽ tiến gần đến phân bố chi bình phương lũy thừa, cho phép chúng ta sử dụng kết quả này để kiểm định giả thuyết.
Khi thực hiện kiểm tra tỷ lệ khả năng, hai mô hình cần được lồng nhau, điều đó có nghĩa là mô hình phức tạp hơn có thể được chuyển đổi thành mô hình đơn giản hơn bằng cách áp đặt các ràng buộc lên các tham số. Nhiều thống kê kiểm tra phổ biến, chẳng hạn như kiểm tra Z, kiểm tra F, v.v., có thể được biểu thị bằng các khái niệm tương tự. Nếu hai mô hình không lồng nhau, phiên bản tổng quát của chúng có thể được sử dụng để phát hiện.
Giả sử chúng ta có một mẫu ngẫu nhiên từ phân phối chuẩn và muốn kiểm tra xem giá trị trung bình của nó có bằng một giá trị cụ thể hay không. Ví dụ: đặt giả thuyết khống là H₀: μ = μ₀
và giả thuyết thay thế là H₁: μ ≠ μ₀
. Tại thời điểm này, chúng ta có thể sử dụng hàm khả năng để tiến hành thử nghiệm và cuối cùng thu được số liệu thống kê liên quan, sau đó ước tính tầm quan trọng của nó.
Nếu giả thuyết khống bị bác bỏ, điều đó có nghĩa là giả thuyết thay thế phù hợp hơn với dữ liệu, nếu không thì giả thuyết khống không thể bị bác bỏ.
Định lý Wilks phát biểu rằng nếu giả thuyết khống là đúng thì khi cỡ mẫu tăng lên, thống kê kiểm tra tỷ lệ khả năng sẽ có xu hướng là một biến ngẫu nhiên có phân bố chi bình phương. Điều này cho phép chúng ta tính toán tỷ lệ khả năng và so sánh nó với giá trị chi bình phương tương ứng với một mức ý nghĩa cụ thể trong nhiều tình huống giả định khác nhau, như một sơ đồ kiểm tra thống kê gần đúng.
Trong thực tế, bài kiểm tra tỷ lệ khả năng được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, bao gồm thống kê sinh học, khoa học xã hội và tâm lý học. Các kịch bản ứng dụng cụ thể bao gồm đánh giá hiệu quả điều trị cho bệnh nhân, phân tích dữ liệu môi trường và dự đoán xu hướng thị trường. Tuy nhiên, với sự phát triển của khoa học dữ liệu và học máy, chúng ta có thể phải đối mặt với những môi trường dữ liệu phức tạp và không đầy đủ hơn, thách thức ranh giới ứng dụng của các phương pháp kiểm tra thống kê truyền thống.
Vậy, với sự tiến bộ của công nghệ, liệu bài kiểm tra tỷ lệ khả năng có thể tiếp tục đóng vai trò then chốt trong lĩnh vực phân tích dữ liệu?