Inter-rater reliability: Định nghĩa, ví dụ, tính toán
Tìm hiểu inter-rater reliability, Cohen's Kappa, ICC, rater training và percentage agreement. Tìm hiểu cách các thước đo thống kê này đảm bảo tính nhất quán và sự đồng thuận giữa các người quan sát trong nghiên cứu và phân tích dữ liệu.

Khi bạn xây dựng một model AI, chất lượng dữ liệu của bạn cũng quan trọng ngang bằng với các thuật toán đằng sau nó. Bất cứ khi nào nhiều người gắn nhãn hoặc đánh giá cùng một dữ liệu, những bất đồng là điều khó tránh khỏi. Điều này đúng trong nhiều lĩnh vực, bao gồm nghiên cứu, chăm sóc sức khỏe và giáo dục.
Đặc biệt, trong computer vision, một nhánh của AI liên quan đến việc huấn luyện các model như Ultralytics YOLO11 để diễn giải dữ liệu thị giác như hình ảnh hoặc video, các ví dụ được gắn nhãn đóng một vai trò quan trọng. Nếu các nhãn đó không nhất quán, các model computer vision có thể gặp khó khăn trong việc học các mẫu chính xác.
Độ tin cậy giữa các người đánh giá (IRR) đo lường mức độ nhất quán mà các cá nhân khác nhau, hoặc người gắn nhãn, đồng ý về một tác vụ. Nó giúp theo dõi tính nhất quán và xác định các khoảng trống trong việc đào tạo, hướng dẫn hoặc diễn giải. Điều này đặc biệt quan trọng trong việc huấn luyện model tùy chỉnh, nơi các model AI được xây dựng bằng cách sử dụng dữ liệu cụ thể cho một mục đích nhất định.
Trong bài viết này, chúng ta sẽ khám phá độ tin cậy giữa các người đánh giá là gì, cách đo lường nó và cách cải thiện nó trong các dự án thực tế. Hãy bắt đầu ngay thôi!
Link to this sectionĐộ tin cậy giữa các người đánh giá là gì?#
Độ tin cậy giữa các người đánh giá đo lường mức độ thường xuyên mà hai hoặc nhiều người (còn được gọi là người đánh giá) đồng ý khi gắn nhãn, xếp hạng hoặc đánh giá cùng một nội dung. Nó được sử dụng để kiểm tra mức độ nhất quán mà các người đánh giá khác nhau áp dụng các tiêu chí nhất định. Sự đồng thuận cao giữa các người đánh giá có nghĩa là một tác vụ được xác định rõ ràng và hiểu rõ ràng.
Khái niệm này được sử dụng trên nhiều lĩnh vực khác nhau. Tùy thuộc vào lĩnh vực, nó được gọi bằng các tên khác nhau, chẳng hạn như sự đồng thuận giữa các người đánh giá, độ tin cậy giữa các quan sát viên hoặc độ tin cậy giữa các người mã hóa. Tuy nhiên, nguyên tắc cơ bản vẫn giống nhau.
Trong vision AI, độ tin cậy giữa các người đánh giá là một phần quan trọng của quy trình gắn nhãn dữ liệu. Việc huấn luyện các computer vision models thường đòi hỏi phải gắn nhãn các tập dữ liệu khổng lồ gồm hình ảnh hoặc khung hình video, vì vậy nhiều nhà phát triển AI làm việc trên cùng một dữ liệu với nhau.
Để có kết quả chính xác, họ phải tuân theo các hướng dẫn gắn nhãn giống nhau. Ví dụ, khi gắn nhãn động vật, mọi người cần một sự đồng thuận rõ ràng về điều gì được tính là chó, cách vẽ BBox xung quanh nó và liệu có nên gắn nhãn hay bỏ qua các đối tượng bị mờ hay không.

Hình 1. Hiểu về độ tin cậy giữa các người đánh giá (Ảnh của tác giả)
Link to this sectionĐộ tin cậy giữa các người đánh giá so với độ tin cậy trong nội bộ người đánh giá và độ tin cậy kiểm tra lại#
Khi con người tham gia vào việc gắn nhãn hoặc chấm điểm dữ liệu, có ba loại độ tin cậy chính cần xem xét. Mỗi loại phục vụ một mục đích khác nhau trong việc đo lường mức độ nhất quán của kết quả. Dưới đây là cái nhìn sâu hơn về từng loại:
-
Độ tin cậy giữa các người đánh giá: Độ tin cậy giữa các người đánh giá xem xét mức độ đồng thuận giữa các cá nhân khác nhau thực hiện cùng một tác vụ. Điều này đặc biệt hữu ích khi có nhiều người chú giải tham gia vào các dự án như gắn nhãn hình ảnh, phân tích cảm xúc hoặc đánh giá y tế.
-
Độ tin cậy trong nội bộ người đánh giá: Nó chuyển trọng tâm sang một cá nhân duy nhất. Độ tin cậy trong nội bộ người đánh giá kiểm tra xem người đánh giá có duy trì tính nhất quán khi lặp lại cùng một tác vụ vào các thời điểm khác nhau hay không. Nếu các nhãn thay đổi quá nhiều, đó có thể là kết quả của các hướng dẫn không rõ ràng hoặc thiếu sự minh bạch về tác vụ.
-
Độ tin cậy kiểm tra lại: Độ tin cậy kiểm tra lại không tập trung vào người chú giải mà vào công cụ hoặc phương pháp đang được sử dụng. Nó đo lường xem kết quả tương tự có xuất hiện khi bài kiểm tra được lặp lại trong các điều kiện tương tự hay không. Nếu đầu ra vẫn nhất quán, phương pháp đó được coi là đáng tin cậy.
Cùng với nhau, các thước đo này giúp xác nhận rằng cả con người và quy trình đều đang tạo ra các kết quả ổn định, đáng tin cậy.

Hình 2. Tổng quan về độ tin cậy giữa các người đánh giá, trong nội bộ người đánh giá và kiểm tra lại (Ảnh của tác giả)
Link to this sectionTại sao độ tin cậy giữa các người đánh giá lại quan trọng?#
Trong các dự án vision AI quy mô lớn, chất lượng của dữ liệu được gắn nhãn ảnh hưởng trực tiếp đến hiệu suất của model. Ngay cả những khác biệt nhỏ trong cách người chú giải áp dụng hướng dẫn cũng có thể tạo ra những điểm không nhất quán khiến model bị bối rối trong quá trình huấn luyện. Theo thời gian, điều này có thể dẫn đến các dự đoán thiếu chính xác, lãng phí tài nguyên và nhu cầu gắn nhãn lại tốn kém.
Đo lường độ tin cậy giữa các người đánh giá giúp phát hiện sớm các vấn đề này. Sự đồng thuận cao có nghĩa là các người chú giải đã được căn chỉnh, tạo ra các datasets sạch hơn và đáng tin cậy hơn. Sự đồng thuận thấp báo hiệu rằng các hướng dẫn, ví dụ hoặc đào tạo có thể cần được tinh chỉnh trước khi dự án tiếp tục. Bằng cách đảm bảo những người gắn nhãn làm việc đồng bộ, các nhóm có thể xây dựng các model AI học tập hiệu quả hơn và mang lại kết quả tốt hơn trong các ứng dụng thực tế.
Link to this sectionCác cân nhắc thực tế cho độ tin cậy giữa các người đánh giá#
Dưới đây là một số cân nhắc thực tế quan trọng cần ghi nhớ khi làm việc với nhiều người đánh giá và hướng tới việc duy trì độ tin cậy giữa các người đánh giá cao:
- Các tác vụ mơ hồ hoặc chủ quan: Khi việc gắn nhãn liên quan đến diễn giải, chẳng hạn như quyết định xem một đối tượng bị mờ có phải là người đi bộ hay đánh giá chất lượng của một hình ảnh, nhiều người đánh giá giúp đảm bảo các quyết định nhất quán và không bị ảnh hưởng quá mức bởi định kiến cá nhân.
- Các tác vụ đơn giản, khách quan: Các tác vụ trực tiếp như counting số lượng xe trong một hình ảnh hoặc xác nhận liệu một đối tượng có hiện diện hay không thường chỉ cần một người đánh giá được đào tạo bài bản, vì sự đồng thuận thường cao một khi quy trình được xác định rõ ràng.
- Hướng dẫn gắn nhãn rõ ràng: Các hướng dẫn chi tiết, dễ làm theo giúp giảm bớt sự không chắc chắn trong cách áp dụng nhãn, từ đó cải thiện sự đồng thuận giữa các người đánh giá. Các hướng dẫn nên bao quát rõ ràng các trường hợp biên để ngăn chặn các diễn giải không nhất quán.
- Đào tạo và hiệu chuẩn định kỳ: Ngay cả những người đánh giá có kinh nghiệm cũng có thể lệch khỏi tiêu chuẩn theo thời gian. Các buổi đào tạo và kiểm tra hiệu chuẩn định kỳ giúp duy trì tính nhất quán và giảm thiểu sai lệch của người thử nghiệm.
Link to this sectionCác thước đo độ tin cậy giữa các người đánh giá#
Có một số cách để đo lường độ tin cậy giữa các người đánh giá và lựa chọn tốt nhất phụ thuộc vào loại dữ liệu và tác vụ. Một số phương pháp hoạt động tốt cho những người đánh giá đơn lẻ xử lý các câu hỏi có/không đơn giản, trong khi những phương pháp khác được thiết kế cho các tình huống liên quan đến nhiều người đánh giá.
Các phương pháp tiếp cận phổ biến bao gồm phần trăm đồng thuận, Kappa của Cohen, Kappa của Fleiss và hệ số tương quan nội lớp. Mỗi phương pháp đo lường mức độ đồng thuận giữa các người đánh giá và tính đến khả năng một số sự đồng thuận có thể xảy ra ngẫu nhiên.
Link to this sectionKappa của Cohen và Kappa của Fleiss#
Kappa của Cohen là một phương pháp được sử dụng rộng rãi để đo lường độ tin cậy giữa các người đánh giá giữa hai người. Nó tính toán mức độ thường xuyên họ đồng thuận về một tác vụ, đồng thời điều chỉnh khả năng một số sự đồng thuận có thể xảy ra ngẫu nhiên. Điểm số nằm trong khoảng từ -1 đến 1, với 1 cho biết sự đồng thuận hoàn hảo và 0 có nghĩa là sự đồng thuận không tốt hơn việc đoán ngẫu nhiên.
Tương tự, Kappa của Fleiss được sử dụng khi có nhiều hơn hai người đánh giá tham gia. Nó cung cấp một điểm số tổng thể cho thấy sự nhất quán của nhóm. Cả hai phương pháp đều được sử dụng cho các tác vụ có các danh mục được thiết lập, như labeling images hoặc gắn nhãn cảm xúc. Chúng dễ tính toán và được hầu hết các công cụ chú giải hỗ trợ.
Link to this sectionPhần trăm đồng thuận và hệ số tương quan nội lớp (ICC)#
Một cách khác để đo lường độ tin cậy giữa các người đánh giá là phần trăm đồng thuận, tính toán tỷ lệ phần trăm số lần người đánh giá đưa ra cùng một quyết định. Mặc dù dễ sử dụng, nó không tính đến sự đồng thuận có thể xảy ra ngẫu nhiên.
Trong khi đó, hệ số tương quan nội lớp là một phương pháp nâng cao hơn được sử dụng cho dữ liệu liên tục hoặc dựa trên thang đo. Nó đo lường mức độ nhất quán của các xếp hạng trên nhiều người đánh giá và thường được áp dụng trong nghiên cứu liên quan đến điểm số, phép đo hoặc các loại dữ liệu khác ngoài các danh mục cố định.
Link to this sectionCác ví dụ và ứng dụng về độ tin cậy giữa các người đánh giá#
Bây giờ chúng ta đã hiểu rõ hơn về cách đo lường độ tin cậy giữa các người đánh giá, hãy cùng đi sâu vào cách các phương pháp này có thể được sử dụng trong các ứng dụng thực tế.
Link to this sectionĐộ tin cậy giữa các người đánh giá trong việc chú giải hình ảnh y tế#
Khi nói đến medical imaging, ngay cả những khác biệt nhỏ trong cách diễn giải cũng có thể dẫn đến những thay đổi đáng kể về kết quả. Ví dụ, các bác sĩ chẩn đoán hình ảnh thường được yêu cầu xác định các mẫu tinh vi, mơ hồ hoặc khó xác định. Khi những mẫu đó trở thành dữ liệu huấn luyện cho các hệ thống AI, rủi ro sẽ cao hơn. Nếu các chuyên gia gắn nhãn cùng một bản quét khác nhau, model có thể học sai các mẫu hoặc thất bại hoàn toàn trong việc học.
Độ tin cậy giữa các người đánh giá giúp các nhóm xử lý dữ liệu như vậy đánh giá mức độ nhất quán thực sự của các nhận định chuyên gia. Ví dụ, trong một nghiên cứu gần đây tập trung vào retinal OCT scans, hai người đánh giá đã gắn nhãn 500 hình ảnh.
Sự đồng thuận cao đối với các đặc điểm rõ ràng như drusen (các cặn vàng dưới võng mạc), với điểm kappa là 0,87. Nhưng đối với các yếu tố khó xác định hơn như các tiêu điểm tăng phản xạ (các đốm sáng nhỏ, nhìn thấy trong các bản quét võng mạc), điểm số đã giảm xuống 0,33. Điều này cho thấy các đặc điểm rõ ràng, được xác định rõ hơn có xu hướng tạo ra các nhận định chuyên gia nhất quán hơn, trong khi các đặc điểm mơ hồ để lại nhiều chỗ cho sự diễn giải.

Hình 3. Các ví dụ về nhãn cho các đặc điểm khác nhau liên quan đến bệnh võng mạc (Source)
Link to this sectionCác tập dữ liệu xe tự lái và độ tin cậy giữa các người đánh giá#
Việc huấn luyện các model AI cho một hệ thống autonomous driving phụ thuộc vào các nhãn chính xác, nhất quán trên nhiều điều kiện đường sá khác nhau. Những người chú giải làm việc trong các dự án như vậy thường được yêu cầu xác định người đi bộ, phương tiện, biển báo giao thông và vạch kẻ làn đường, thường là trong điều kiện ánh sáng kém hoặc cảnh đông đúc.
Những quyết định này định hình cách model học cách phản ứng trong các môi trường thực tế khắc nghiệt. Độ tin cậy giữa các người đánh giá giúp các nhóm kiểm tra xem các nhãn đó có đang được áp dụng cùng một cách trên các người chú giải hay không.

Hình 4. Cái nhìn về những bất đồng trong chú giải (Source)
Link to this sectionNgoài độ tin cậy giữa các người đánh giá: Các biện pháp đảm bảo chất lượng khác#
Mặc dù đo lường độ tin cậy giữa các người đánh giá là một bước quan trọng trong việc xây dựng một AI solution, nhưng nó là một phần của quy trình đảm bảo chất lượng rộng hơn. Dưới đây là một số thực tiễn khác có thể giúp cải thiện chất lượng dữ liệu trên các nhóm và dự án:
- Hướng dẫn chú giải rõ ràng: Các hướng dẫn nên giải thích chính xác cách áp dụng nhãn để mọi người làm việc theo cùng một tiêu chuẩn.
- Đào tạo và hiệu chuẩn: Các buổi thường xuyên giúp những người chú giải duy trì sự căn chỉnh và cung cấp cho họ không gian để đặt câu hỏi và điều chỉnh các trường hợp biên.
- Kiểm tra chất lượng liên tục: Kiểm tra ngẫu nhiên và các ví dụ tiêu chuẩn vàng có thể phát hiện sai sót sớm và duy trì chất lượng cao khi dự án mở rộng.
- Giải quyết bất đồng: Khi những người chú giải không đồng ý, cần có một quy trình rõ ràng để xem xét các trường hợp đó và đưa ra quyết định cuối cùng.
- Nhóm người chú giải đa dạng: Việc thu hút những người có nền tảng khác nhau có thể giảm bớt định kiến và cải thiện mức độ đại diện của tập dữ liệu đối với sự thay đổi trong thế giới thực.
Link to this sectionCác điểm chính cần lưu ý#
Độ tin cậy giữa các người đánh giá đo lường mức độ nhất quán mà mọi người áp dụng nhãn hoặc đưa ra quyết định. Các phương pháp như Kappa của Cohen, Kappa của Fleiss và ICC giúp định lượng sự đồng thuận đó. Với các hướng dẫn, đào tạo và kiểm soát định kiến rõ ràng, các chú giải đáng tin cậy sẽ dẫn đến dữ liệu mạnh mẽ hơn và kết quả model tốt hơn.
Hãy tham gia our community và khám phá GitHub repository của chúng tôi để khám phá thêm về AI. Nếu bạn đang tìm cách bắt đầu dự án vision AI của riêng mình, hãy xem licensing options của chúng tôi. Bạn cũng có thể xem cách AI in healthcare và vision AI in retail đang tạo ra tác động bằng cách truy cập các trang giải pháp của chúng tôi.






