Trong thống kê, hệ số tương quan Pearson (PCC) là hệ số tương quan đo lường mối quan hệ tuyến tính giữa hai tập dữ liệu. Hệ số này là tỷ số giữa hiệp phương sai của hai biến và tích độ lệch chuẩn của chúng. Trên thực tế, đây là thước đo chuẩn hóa của hiệp phương sai để kết quả luôn nằm trong khoảng từ -1 đến 1. Điều này có nghĩa là nó có thể giúp chúng ta hiểu mối quan hệ giữa các biến, nhưng chỉ trong bối cảnh tương quan tuyến tính.
"Nếu hệ số tương quan Pearson của hai biến là 1 thì có mối tương quan dương hoàn hảo giữa chúng."
Ví dụ, giả sử chúng ta xem xét mối quan hệ giữa độ tuổi và chiều cao của học sinh ở một trường tiểu học. Dự kiến hệ số tương quan Pearson cho hai biến này sẽ lớn hơn 0 nhưng nhỏ hơn 1 vì không thực tế khi độ tuổi và chiều cao của hai người có cùng một mức.
Hệ số tương quan Pearson được Karl Pearson phát triển vào những năm 1880, dựa trên khái niệm tương quan do Francis Galton đề xuất. Điều đáng chú ý là việc đặt tên cho phát minh này phản ánh Luật Stigler, trong đó nêu rằng "tên của nhà phát minh thường bị bỏ qua".
“Sự phát triển của thống kê không chỉ là sự tiến hóa của các con số, mà còn là sự khám phá những câu chuyện đằng sau dữ liệu.”
Theo quan điểm hình học, hệ số tương quan có thể được suy ra bằng cách xem xét cosin của góc giữa các điểm biểu diễn hai tập dữ liệu. Điều này cho phép hệ số tương quan Pearson được sử dụng như một thước đo tương quan của một tập dữ liệu cụ thể và giá trị của nó nằm giữa -1 và 1, với 1 là 1 khi tất cả các điểm nằm trên cùng một đường thẳng.
Hệ số tương quan Pearson được định nghĩa là hiệp phương sai của hai biến chia cho tích độ lệch chuẩn của chúng. Dạng định nghĩa này bao gồm một "tích" là giá trị trung bình (động lượng đầu tiên xung quanh gốc tọa độ) nhân với giá trị trung bình của biến ngẫu nhiên; do đó có thuật ngữ "tích".
Khi áp dụng cho một quần thể, hệ số tương quan Pearson thường được ký hiệu bằng chữ cái Hy Lạp ρ (rho) và được gọi là hệ số tương quan quần thể hoặc hệ số tương quan Pearson quần thể. Ví dụ, hãy xem xét một cặp biến ngẫu nhiên (X, Y), có hệ số tương quan có thể được biểu thị dưới dạng tích của hiệp phương sai và độ lệch chuẩn của các biến. Tuy nhiên, do định nghĩa phức tạp nên không tiện trình bày dạng công thức cụ thể ở đây.
“Hiệp phương sai là chìa khóa để hiểu được sự tương tác giữa các biến.”
Khi hệ số tương quan Pearson được áp dụng cho một mẫu, nó thường được biểu thị bằng ký hiệu r và có thể được gọi là hệ số tương quan mẫu hoặc hệ số tương quan Pearson mẫu. Giá trị này dựa trên ước tính hiệp phương sai và phương sai trong mẫu và có thể phản ánh mối quan hệ giữa hai biến.
Mặc dù hệ số tương quan Pearson được sử dụng rộng rãi, nhưng nó chỉ có thể phản ánh các mối quan hệ tuyến tính và bỏ qua các loại liên kết khác, điều này đòi hỏi chúng ta phải đặc biệt cẩn thận khi sử dụng nó. Kết quả hoặc mô hình cụ thể có thể thay đổi tùy thuộc vào lựa chọn dữ liệu hoặc phương pháp phân tích, không chỉ giới hạn ở việc tính toán trực tiếp số liệu thống kê mà còn bao gồm cả cách giải thích và ứng dụng.“Dữ liệu không thể tự nói lên điều đó, nhưng ý nghĩa tiềm ẩn của nó được bộc lộ thông qua cách diễn giải phù hợp.”
Cuối cùng, hệ số tương quan Pearson cung cấp một công cụ mạnh mẽ để hiểu mối quan hệ giữa các biến, nhưng chúng ta nên luôn sử dụng nó với tư duy phản biện. Bạn đã bao giờ cân nhắc xem liệu có những yếu tố khác trong cuộc sống của bạn có thể ảnh hưởng đến mối quan hệ giữa hai biến số này không?