Độ tin cậy giữa các giám khảo (Inter-rater Reliability) là gì: Định nghĩa, Cohen's Kappa & hơn thế nữa

Khi bạn xây dựng một mô hình AI, chất lượng dữ liệu của bạn cũng quan trọng như các thuật toán đằng sau nó. Bất cứ khi nào nhiều người gắn nhãn hoặc xem xét cùng một dữ liệu, những bất đồng chắc chắn sẽ xảy ra. Điều này đúng trong nhiều lĩnh vực, bao gồm nghiên cứu, chăm sóc sức khỏe và giáo dục.

Đặc biệt, trong thị giác máy tính , một nhánh của AI liên quan đến các mô hình đào tạo như Ultralytics YOLO11 để diễn giải dữ liệu trực quan như hình ảnh hoặc video, các ví dụ được gắn nhãn đóng một vai trò quan trọng. Nếu các nhãn này không nhất quán, các mô hình thị giác máy tính có thể gặp khó khăn trong việc học các mẫu chính xác.

Độ tin cậy giữa các người đánh giá (Inter-rater reliability - IRR) đo lường mức độ nhất quán giữa các cá nhân hoặc người gắn nhãn khác nhau về một nhiệm vụ. Nó giúp theo dõi tính nhất quán và xác định các lỗ hổng trong quá trình đào tạo, hướng dẫn hoặc diễn giải. Điều này đặc biệt quan trọng trong quá trình huấn luyện mô hình tùy chỉnh, nơi các mô hình AI được xây dựng bằng cách sử dụng dữ liệu cụ thể cho một mục đích cụ thể.

Trong bài viết này, chúng ta sẽ khám phá độ tin cậy giữa các người đánh giá (inter-rater reliability) là gì, cách đo lường nó và cách cải thiện nó trong các dự án thực tế. Hãy cùng bắt đầu!

Độ tin cậy giữa các giám khảo là gì?

Độ tin cậy giữa các người đánh giá đo lường tần suất hai hoặc nhiều người (còn được gọi là người đánh giá) đồng ý khi gắn nhãn, xếp hạng hoặc xem xét cùng một nội dung. Nó được sử dụng để kiểm tra mức độ nhất quán của những người đánh giá khác nhau khi sử dụng các tiêu chí nhất định. Sự đồng ý cao giữa những người đánh giá có nghĩa là một nhiệm vụ được xác định rõ ràng và được hiểu rõ.

Khái niệm này được sử dụng trong các lĩnh vực khác nhau. Tùy thuộc vào lĩnh vực, nó được biết đến với những tên gọi khác nhau, chẳng hạn như thỏa thuận giữa các người đánh giá, độ tin cậy giữa những người quan sát hoặc độ tin cậy giữa những người mã hóa. Tuy nhiên, nguyên tắc cơ bản vẫn giống nhau.

Trong Vision AI, độ tin cậy giữa các người đánh giá (inter-rater reliability) là một phần quan trọng của quy trình gán nhãn dữ liệu. Huấn luyện các mô hình thị giác máy tính thường yêu cầu gán nhãn các tập dữ liệu lớn gồm hình ảnh hoặc khung hình video, vì vậy nhiều nhà phát triển AI làm việc cùng nhau trên cùng một dữ liệu.

Để có được kết quả chính xác, họ phải tuân theo các hướng dẫn ghi nhãn giống nhau. Ví dụ: khi ghi nhãn động vật, mọi người cần có thỏa thuận rõ ràng về những gì được coi là chó, cách vẽ hộp giới hạn xung quanh nó và có nên gắn nhãn hoặc bỏ qua các đối tượng bị mờ hay không.

Hình 1. Tìm hiểu về độ tin cậy giữa các người đánh giá (Ảnh của tác giả)

‍

Độ tin cậy giữa các người đánh giá so với độ tin cậy trong cùng một người đánh giá và độ tin cậy kiểm tra-kiểm tra lại

Khi mọi người tham gia vào việc dán nhãn hoặc chấm điểm dữ liệu, có ba loại độ tin cậy chính cần xem xét. Mỗi loại phục vụ một mục đích khác nhau trong việc đo lường mức độ nhất quán của kết quả. Dưới đây là cái nhìn kỹ hơn về từng loại:

Độ tin cậy giữa các người đánh giá: Độ tin cậy giữa các người đánh giá xem xét mức độ nhất quán giữa những người khác nhau khi thực hiện cùng một nhiệm vụ. Điều này đặc biệt hữu ích khi có nhiều người chú thích tham gia vào các dự án như dán nhãn hình ảnh, phân tích tình cảm hoặc đánh giá y tế.

Độ tin cậy nội bộ (Intra-rater reliability): Nó chuyển trọng tâm sang một người duy nhất. Độ tin cậy nội bộ kiểm tra xem người đánh giá có nhất quán khi lặp lại cùng một nhiệm vụ tại các thời điểm khác nhau hay không. Nếu các nhãn thay đổi quá nhiều, đó có thể là kết quả của các hướng dẫn không rõ ràng hoặc thiếu sự rõ ràng trong nhiệm vụ.

Độ tin cậy kiểm tra lại: Độ tin cậy kiểm tra lại không tập trung vào người chú thích mà tập trung vào công cụ hoặc phương pháp đang được sử dụng. Nó đo lường xem kết quả tương tự có xuất hiện khi kiểm tra được lặp lại trong các điều kiện tương tự hay không. Nếu đầu ra nhất quán, phương pháp được coi là đáng tin cậy.

Cùng với nhau, các biện pháp này giúp xác nhận rằng cả con người và quy trình đều tạo ra kết quả ổn định và đáng tin cậy.

Hình 2. Tổng quan về độ tin cậy giữa các người đánh giá, trong cùng một người đánh giá và kiểm tra lại (Ảnh của tác giả)

‍

Tại sao độ tin cậy giữa các người đánh giá (inter-rater reliability) lại quan trọng?

Trong các dự án Vision AI quy mô lớn, chất lượng của dữ liệu được gắn nhãn ảnh hưởng trực tiếp đến hiệu suất của mô hình. Ngay cả những khác biệt nhỏ trong cách người chú giải áp dụng hướng dẫn cũng có thể gây ra sự không nhất quán, gây nhầm lẫn cho mô hình trong quá trình huấn luyện. Theo thời gian, điều này có thể dẫn đến dự đoán không chính xác, lãng phí tài nguyên và cần gắn nhãn lại tốn kém.

Đo lường độ tin cậy giữa những người đánh giá giúp phát hiện sớm những vấn đề này. Sự đồng thuận cao có nghĩa là những người chú thích (annotator) đã thống nhất, tạo ra bộ dữ liệu sạch hơn và đáng tin cậy hơn. Sự đồng thuận thấp báo hiệu rằng các hướng dẫn, ví dụ hoặc đào tạo có thể cần được điều chỉnh trước khi dự án tiến triển. Bằng cách đảm bảo những người dán nhãn làm việc đồng bộ, các nhóm có thể xây dựng các mô hình AI học hỏi hiệu quả hơn và mang lại kết quả tốt hơn trong các ứng dụng thực tế.

Những cân nhắc thực tế cho độ tin cậy giữa các người đánh giá

Dưới đây là một số cân nhắc thực tế quan trọng cần ghi nhớ khi làm việc với nhiều người đánh giá và hướng đến duy trì độ tin cậy cao giữa những người đánh giá:

Các tác vụ mơ hồ hoặc chủ quan: Khi việc gán nhãn liên quan đến việc diễn giải, chẳng hạn như quyết định xem một vật thể bị mờ có phải là người đi bộ hay đánh giá chất lượng của hình ảnh, nhiều người đánh giá sẽ giúp đảm bảo các quyết định nhất quán và không bị ảnh hưởng quá mức bởi sự thiên vị cá nhân.
Các nhiệm vụ đơn giản, khách quan: Các nhiệm vụ đơn giản như đếm số lượng xe hơi trong một hình ảnh hoặc xác nhận xem một đối tượng có hiện diện hay không thường chỉ yêu cầu một người đánh giá được đào tạo bài bản, vì sự đồng thuận thường cao sau khi quy trình được xác định rõ ràng.
Hướng dẫn gắn nhãn rõ ràng: Hướng dẫn chi tiết, dễ làm theo giúp giảm sự không chắc chắn trong cách áp dụng nhãn, điều này cải thiện sự thống nhất giữa những người đánh giá. Hướng dẫn nên đề cập rõ ràng đến các trường hợp đặc biệt để ngăn chặn các cách giải thích không nhất quán.
Đào tạo và hiệu chỉnh định kỳ: Ngay cả những người đánh giá có kinh nghiệm cũng có thể sai lệch trong đánh giá của họ theo thời gian. Các buổi đào tạo thường xuyên và kiểm tra hiệu chỉnh giúp duy trì tính nhất quán và giảm thiểu sự thiên vị của người thử nghiệm.

Các biện pháp đánh giá độ tin cậy giữa những người đánh giá

Có một số cách để đo lường độ tin cậy giữa các người đánh giá và lựa chọn tốt nhất phụ thuộc vào loại dữ liệu và tác vụ. Một số phương pháp hoạt động tốt cho những người đánh giá đơn lẻ xử lý các câu hỏi có/không đơn giản, trong khi những phương pháp khác được thiết kế cho các tình huống liên quan đến nhiều người đánh giá.

Các phương pháp phổ biến bao gồm phần trăm đồng ý (percent agreement), Cohen’s Kappa, Fleiss’ Kappa và hệ số tương quan nội lớp (intraclass correlation coefficient). Mỗi phương pháp đo lường mức độ đồng ý giữa những người đánh giá và tính đến khả năng một số thỏa thuận có thể xảy ra do may mắn.

Cohen’s Kappa và Fleiss’ Kappa

Cohen’s Kappa là một phương pháp được sử dụng rộng rãi để đo lường độ tin cậy giữa các người đánh giá (inter-rater reliability) giữa hai người đánh giá. Nó tính toán tần suất họ đồng ý về một nhiệm vụ, đồng thời điều chỉnh cho khả năng một số thỏa thuận có thể xảy ra do may mắn. Điểm số dao động từ -1 đến 1, với 1 biểu thị sự đồng ý hoàn hảo và 0 có nghĩa là sự đồng ý không tốt hơn so với đoán ngẫu nhiên.

Tương tự, Fleiss’ Kappa được sử dụng khi có nhiều hơn hai người đánh giá tham gia. Nó cung cấp một điểm số tổng thể cho thấy mức độ nhất quán của nhóm. Cả hai phương pháp đều được sử dụng cho các tác vụ có các danh mục được thiết lập, chẳng hạn như gắn nhãn hình ảnh hoặc gắn thẻ cảm xúc. Chúng rất dễ tính toán và được hỗ trợ bởi hầu hết các công cụ chú thích.

Phần trăm nhất trí và hệ số tương quan nội bộ (ICC)

Một cách khác để đo lường độ tin cậy giữa các người đánh giá là tỷ lệ phần trăm đồng ý, tính toán tỷ lệ phần trăm số lần người đánh giá đưa ra cùng một quyết định. Mặc dù đơn giản để sử dụng, nhưng nó không tính đến sự đồng ý có thể xảy ra do may mắn.

Trong khi đó, hệ số tương quan nội bộ (intraclass correlation coefficient) là một phương pháp nâng cao hơn được sử dụng cho dữ liệu liên tục hoặc dựa trên thang đo. Nó đo lường mức độ nhất quán của các đánh giá giữa nhiều người đánh giá và thường được áp dụng trong các nghiên cứu liên quan đến điểm số, phép đo hoặc các loại dữ liệu khác ngoài các danh mục cố định.

Các ví dụ và ứng dụng về độ tin cậy giữa các người đánh giá

Bây giờ chúng ta đã hiểu rõ hơn về cách đo lường độ tin cậy giữa những người đánh giá, hãy cùng xem xét cách các phương pháp này có thể được sử dụng trong các ứng dụng thực tế.

Độ tin cậy giữa các người đánh giá trong chú thích hình ảnh y tế

Khi nói đến chẩn đoán hình ảnh y tế, ngay cả những khác biệt nhỏ trong cách giải thích cũng có thể dẫn đến những thay đổi đáng kể trong kết quả. Ví dụ: các bác sĩ радиологи thường được yêu cầu xác định các mẫu tinh vi, mơ hồ hoặc khó xác định. Khi những mẫu đó trở thành dữ liệu huấn luyện cho các hệ thống AI, rủi ro sẽ cao hơn. Nếu các chuyên gia dán nhãn cùng một bản quét khác nhau, mô hình có thể học các mẫu sai hoặc không học được gì cả.

Độ tin cậy giữa các người đánh giá giúp các nhóm xử lý dữ liệu như vậy đánh giá xem các đánh giá của chuyên gia thực sự nhất quán đến mức nào. Ví dụ: trong một nghiên cứu gần đây tập trung vào quét OCT võng mạc, hai người đánh giá đã gắn nhãn 500 hình ảnh.

Mức độ thống nhất cao đối với các đặc điểm rõ ràng như drusen (các chất lắng màu vàng dưới võng mạc), với điểm kappa là 0,87. Nhưng đối với các yếu tố khó xác định hơn như hyperreflective foci (các đốm nhỏ, sáng thấy trong ảnh quét võng mạc), điểm số giảm xuống 0,33. Điều này cho thấy rằng các đặc điểm rõ ràng, được xác định rõ hơn có xu hướng tạo ra các đánh giá nhất quán hơn từ các chuyên gia, trong khi những đặc điểm mơ hồ để lại nhiều dư địa hơn cho việc giải thích.

Hình 3. Các ví dụ về nhãn cho các đặc trưng khác nhau liên quan đến các bệnh về võng mạc (Nguồn)

‍

Bộ dữ liệu xe tự hành và độ tin cậy giữa các người đánh giá

Huấn luyện các mô hình AI cho một hệ thống lái xe tự động phụ thuộc vào các nhãn chính xác, nhất quán trên một loạt các điều kiện đường xá. Người chú thích làm việc trên các dự án như vậy thường được yêu cầu xác định người đi bộ, phương tiện, biển báo giao thông và vạch kẻ đường, thường trong điều kiện ánh sáng kém hoặc cảnh đông đúc.

Những quyết định này định hình cách mô hình học cách phản hồi trong môi trường thực tế khắc nghiệt. Độ tin cậy giữa các người đánh giá (Inter-rater reliability) giúp các nhóm kiểm tra xem các nhãn đó có được áp dụng theo cùng một cách trên tất cả những người chú thích hay không.

Hình 4. Xem xét sự không thống nhất trong chú thích (Nguồn)

‍

Vượt xa độ tin cậy giữa các giám định viên: Các biện pháp đảm bảo chất lượng khác

Mặc dù đo lường độ tin cậy giữa những người đánh giá là một bước quan trọng trong việc xây dựng một giải pháp AI, nhưng nó là một phần của quy trình đảm bảo chất lượng rộng hơn. Dưới đây là một số phương pháp khác có thể giúp cải thiện chất lượng dữ liệu trên các nhóm và dự án:

Hướng dẫn chú thích rõ ràng: Hướng dẫn nên giải thích chính xác cách áp dụng nhãn để mọi người làm việc theo cùng một tiêu chuẩn.
Đào tạo và hiệu chỉnh: Các buổi đào tạo thường xuyên giúp người chú thích luôn đồng bộ và tạo không gian cho họ đặt câu hỏi và điều chỉnh theo các trường hợp đặc biệt.
Kiểm tra chất lượng liên tục: Kiểm tra nhanh và các ví dụ tiêu chuẩn vàng có thể phát hiện lỗi sớm và giữ cho chất lượng cao khi dự án mở rộng.
Giải quyết bất đồng: Khi những người chú thích không đồng ý, cần có một quy trình rõ ràng để xem xét các trường hợp đó và đưa ra quyết định cuối cùng.
Nhóm người chú thích đa dạng: Sự tham gia của những người có nền tảng khác nhau có thể giảm thiểu sự thiên vị và cải thiện mức độ đại diện của tập dữ liệu đối với sự biến đổi trong thế giới thực.

Những điều cần nhớ

Độ tin cậy giữa các người đánh giá đo lường mức độ nhất quán của mọi người khi áp dụng nhãn hoặc đưa ra quyết định. Các phương pháp như Cohen’s Kappa, Fleiss’ Kappa và ICC giúp định lượng sự đồng ý đó. Với các hướng dẫn rõ ràng, đào tạo và kiểm soát sai lệch, các chú thích đáng tin cậy sẽ dẫn đến dữ liệu mạnh hơn và kết quả mô hình tốt hơn.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về AI. Nếu bạn đang muốn bắt đầu dự án Vision AI của riêng mình, hãy xem các tùy chọn cấp phép của chúng tôi. Bạn cũng có thể xem AI trong lĩnh vực chăm sóc sức khỏe và Vision AI trong lĩnh vực bán lẻ đang tạo ra tác động như thế nào bằng cách truy cập các trang giải pháp của chúng tôi.

Độ tin cậy giữa các người đánh giá: Định nghĩa, ví dụ, tính toán

Độ tin cậy giữa các giám khảo là gì?

Độ tin cậy giữa các người đánh giá so với độ tin cậy trong cùng một người đánh giá và độ tin cậy kiểm tra-kiểm tra lại

Tại sao độ tin cậy giữa các người đánh giá (inter-rater reliability) lại quan trọng?

Những cân nhắc thực tế cho độ tin cậy giữa các người đánh giá

Các biện pháp đánh giá độ tin cậy giữa những người đánh giá

Cohen’s Kappa và Fleiss’ Kappa

Phần trăm nhất trí và hệ số tương quan nội bộ (ICC)

Các ví dụ và ứng dụng về độ tin cậy giữa các người đánh giá

Độ tin cậy giữa các người đánh giá trong chú thích hình ảnh y tế

Bộ dữ liệu xe tự hành và độ tin cậy giữa các người đánh giá

Vượt xa độ tin cậy giữa các giám định viên: Các biện pháp đảm bảo chất lượng khác

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai
của AI!

Độ tin cậy giữa các người đánh giá: Định nghĩa, ví dụ, tính toán

Độ tin cậy giữa các giám khảo là gì?

Độ tin cậy giữa các người đánh giá so với độ tin cậy trong cùng một người đánh giá và độ tin cậy kiểm tra-kiểm tra lại

Tại sao độ tin cậy giữa các người đánh giá (inter-rater reliability) lại quan trọng?

Những cân nhắc thực tế cho độ tin cậy giữa các người đánh giá

Các biện pháp đánh giá độ tin cậy giữa những người đánh giá

Cohen’s Kappa và Fleiss’ Kappa

Phần trăm nhất trí và hệ số tương quan nội bộ (ICC)

Các ví dụ và ứng dụng về độ tin cậy giữa các người đánh giá

Độ tin cậy giữa các người đánh giá trong chú thích hình ảnh y tế

Bộ dữ liệu xe tự hành và độ tin cậy giữa các người đánh giá

Vượt xa độ tin cậy giữa các giám định viên: Các biện pháp đảm bảo chất lượng khác

Những điều cần nhớ

Đọc thêm trong danh mục này

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Xử lý ảnh là gì? Giới thiệu ngắn gọn

Đối sánh mẫu là gì? Hướng dẫn nhanh

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!