Trong thống kê hiện đại, khái niệm mô hình tuyến tính cho phép các nhà nghiên cứu hiểu và dự đoán mối quan hệ giữa các biến. Trong số đó, Mô hình tuyến tính tổng quát (GLM) được sử dụng rộng rãi trong phân tích hồi quy đa biến, trong khi Hồi quy tuyến tính bội là một trường hợp đặc biệt của lý thuyết này. Vậy mối liên hệ giữa hai điều này là gì?
Mô hình tuyến tính tổng quát là một cách tiết kiệm để biểu diễn nhiều mô hình hồi quy đa biến cùng lúc, nghĩa là nó không phải là mô hình tuyến tính thống kê độc lập. Tóm lại, chúng ta có thể viết các mô hình hồi quy đa biến khác nhau theo dạng sau:
Y = X * B + U
Tại đây, Y là ma trận chứa dữ liệu của nhiều biến đo lường, X là ma trận quan sát của các biến độc lập, B là ma trận tham số và U là ma trận sai số hoặc không chắc chắn. Điều đáng nói là những lỗi này thường được cho là không tương quan giữa các quan sát và tuân theo phân phối chuẩn đa biến. Nếu các lỗi này không tuân theo phân phối chuẩn đa biến, chúng ta có thể sử dụng mô hình tuyến tính tổng quát (GLM) để nới lỏng các giả định về Y và U.
Ý nghĩa cốt lõi của mô hình tuyến tính tổng quát là nó kết hợp nhiều mô hình thống kê khác nhau, chẳng hạn như ANOVA, ANCOVA, MANOVA, MANCOVA, v.v., cho phép xử lý nhiều hơn một biến phụ thuộc và cung cấp phân tích toàn diện hơn. Theo nghĩa này, hồi quy tuyến tính thông thường là một trường hợp đặc biệt của mô hình tuyến tính tổng quát, nghĩa là nó bị giới hạn trong trường hợp một biến phụ thuộc.
Hồi quy tuyến tính thông thường là một mô hình liên quan đến hồi quy tuyến tính đơn giản tập trung vào tác động của nhiều biến độc lập lên một biến phụ thuộc duy nhất.
Cụ thể, mô hình cơ bản của hồi quy tuyến tính thông thường là: Yi = β0 + β1 * Xi1 + β2 * Xi2 + ... + βp * Xip + εi. Nếu chúng ta xem xét n quan sát và p biến độc lập bằng công thức này, Yi là quan sát thứ i của biến phụ thuộc, trong khi Xik biểu thị quan sát tương ứng của biến độc lập, βj là tham số cần ước tính và εi là sai số chuẩn độc lập thứ i và phân phối giống hệt nhau.
Đối với mô hình tuyến tính tổng quát, khi có nhiều hơn một biến phụ thuộc, chúng ta sẽ bước vào phạm vi hồi quy đa biến. Trong trường hợp này, đối với mỗi biến phụ thuộc đều có các tham số hồi quy tương ứng được ước tính, do đó về mặt tính toán, đây thực chất là một loạt các hồi quy tuyến tính bội chuẩn, tất cả đều sử dụng cùng một biến giải thích.
Mô hình tuyến tính tổng quát giả định rằng các giá trị dư sẽ tuân theo phân phối chuẩn có điều kiện, trong khi mô hình tuyến tính tổng quát nới lỏng giả định này để cho phép nhiều phân phối khác nhau.
Nhìn xa hơn, một sự khác biệt quan trọng giữa các mô hình tuyến tính tổng quát và các mô hình tuyến tính tổng quát (GLM) là GLM cho phép phạm vi phân phối dư rộng hơn, lựa chọn từ họ phân phối hàm mũ, chẳng hạn như hồi quy logistic nhị phân, hồi quy Poisson, v.v. Ý nghĩa của lời chỉ trích này là khi đối mặt với các loại biến kết quả khác nhau, các nhà nghiên cứu có thể chọn mô hình phù hợp để có được hiệu quả dự đoán tốt nhất.
Ví dụ, người ta có thể thấy ứng dụng của các mô hình tuyến tính tổng quát trong phân tích dữ liệu quét não, trong đó Y có thể bao gồm dữ liệu từ các lần quét não và X sẽ là các biến trong thiết kế thử nghiệm. Các xét nghiệm này thường được thực hiện theo cách đơn biến, trong bối cảnh này được gọi là phân tích đơn biến khối lượng, và thường được sử dụng trong các nghiên cứu về lập bản đồ tham số thống kê.
Tóm lại, hồi quy tuyến tính thông thường liên quan đến mô hình tuyến tính tổng quát như một họ và các trường hợp đặc biệt của nó, tập trung vào cách chuyển từ các quan sát đơn giản sang các mối quan hệ đa biến phức tạp. Khi các kỹ thuật phân tích thống kê ngày càng tiến bộ, việc hiểu được những kho báu ẩn giấu trong các mô hình này sẽ là một phần không thể thiếu của công việc nghiên cứu. Tuy nhiên, trong xu hướng phát triển như vậy, có lẽ chúng ta nên tự hỏi: Bạn đã tận dụng đầy đủ các công cụ thống kê này để tác động đến quá trình nghiên cứu và ra quyết định của mình chưa?