Trong các lĩnh vực khác nhau như khoa học xã hội, nghiên cứu y học và nghiên cứu thị trường, độ tin cậy của dữ liệu chắc chắn là nền tảng của kết luận phân tích. Cohen's Kappa trở thành một công cụ quan trọng khi nghiên cứu cần đánh giá tính nhất quán của những người đánh giá hoặc nhà nghiên cứu khác nhau về một dữ liệu hoặc sự kiện nhất định. Chỉ số này không chỉ có thể đánh giá mức độ đồng thuận giữa những người đánh giá mà còn xem xét sự đồng thuận có thể do các yếu tố ngẫu nhiên gây ra, khiến nó đặc biệt quan trọng trong nghiên cứu khoa học.
Kappa của Cohen có thể được xem là một thước đo đầy tham vọng hơn là một phép tính đơn thuần về tỷ lệ phần trăm thỏa thuận.
Hệ số kappa của Cohen là một thống kê dùng để đo mức độ đồng ý giữa hai người đánh giá trong việc phân loại N mục thành C danh mục loại trừ lẫn nhau. Nói một cách đơn giản, việc tính hệ số Kappa bao gồm hai chỉ số chính: mức độ phù hợp tương đối được quan sát (p_o
) và xác suất giả định của sự phù hợp ngẫu nhiên (p_e
). Điều này có nghĩa là Kappa không chỉ quan tâm đến thỏa thuận thực tế giữa những người đánh giá mà còn khám phá sâu hơn những sai lệch lẻ tẻ trong các yếu tố khác nhau ảnh hưởng đến quan sát thực tế.
Ví dụ: khi chúng tôi có hai người đánh giá, nếu họ hoàn toàn nhất quán thì giá trị kappa là 1; nếu họ chỉ dựa vào thỏa thuận ngẫu nhiên thì giá trị kappa là 0. Đánh giá định lượng này rất hữu ích trong việc hiểu được độ tin cậy của dữ liệu.
"Nếu có sự đồng thuận hoàn toàn giữa những người đánh giá thì giá trị của Kappa là 1; nếu chỉ có kết quả ngẫu nhiên thì Kappa bằng 0."
Cohen's Kappa lần đầu tiên được nhà tâm lý học Jacob Cohen đề xuất vào năm 1960 để hỗ trợ đánh giá sự đồng thuận giữa những người đánh giá trong các phép đo giáo dục và tâm lý. Sau đó, chỉ báo bắt đầu được sử dụng rộng rãi trong nhiều lĩnh vực, bao gồm giải đoán hình ảnh y tế, khoa học xã hội và nghiên cứu thị trường, và dần phát triển thành một trong những phương pháp tiêu chuẩn để đánh giá độ tin cậy của dữ liệu.
Mặc dù hệ số kappa là một công cụ đo lường mạnh mẽ về mặt lý thuyết nhưng nó gặp phải những thách thức trong ứng dụng thực tế. Một là khả năng xảy ra tranh chấp về cách giải thích phạm vi của thỏa thuận. Nghiên cứu chỉ ra rằng khi giải thích các giá trị kappa, ngoài việc chú ý đến những sai lệch và bất bình đẳng có thể xảy ra, cũng cần phải tính đến tác động của số lượng đối tượng và cỡ mẫu.
Khi đánh giá kết quả, "giá trị của hệ số kappa phụ thuộc rất nhiều vào tiêu chí phân công và tỷ lệ danh mục của người đánh giá."
Cohen's kappa thường được sử dụng để đo lường sự đồng thuận giữa hai người đánh giá trên cùng một mẫu và giá trị của nó nằm trong khoảng từ -1 đến 1. Nếu giá trị kappa nhỏ hơn 0, điều đó có nghĩa là có sự bất đồng lớn hơn giữa những người đánh giá so với kết quả ngẫu nhiên; giá trị từ 0 đến 0,20 là đồng ý nhẹ, 0,21 đến 0,40 là đồng ý vừa phải, 0,41 đến 0,60 là đồng ý vừa phải và 0,61 đến 0,80 là khá nhất quán và trên 0,81 thì gần như hoàn toàn nhất quán.
Tuy nhiên, các chỉ số này thường thể hiện khả năng giải thích khác nhau trong các bối cảnh khác nhau. Do đó, các nhà nghiên cứu nên thận trọng về cách họ xem dữ liệu của Kappa và cách chuyển chúng thành ý nghĩa nghiên cứu thực tế.
Là một thước đo quan trọng về độ tin cậy của dữ liệu, Kappa của Cohen đã được thực hiện vô số lần trong nhiều nghiên cứu. Tuy nhiên, chúng ta vẫn cần suy nghĩ về cách xác định sâu hơn khả năng ứng dụng và tác động thực sự của nó đối với độ tin cậy của dữ liệu trong thực tế xã hội ngày càng phức tạp. Cohen's Kappa có thể áp dụng cho mọi tình huống không? Hoặc liệu chúng ta có cần các phương pháp đánh giá linh hoạt và sâu rộng hơn để xử lý tính toàn vẹn của các loại dữ liệu khác nhau không?