Độ tin cậy giữa các đánh giá viên: Định nghĩa, ví dụ, tính toán

Abirami Vina

5 phút đọc

Ngày 18 tháng 8 năm 2025

Hiểu về độ tin cậy giữa các nhà đánh giá, hệ số Cohen's Kappa, ICC, đào tạo đánh giá và tỷ lệ phần trăm đồng thuận. Tìm hiểu cách các biện pháp thống kê này đảm bảo tính nhất quán và đồng thuận giữa các nhà quan sát trong nghiên cứu và phân tích dữ liệu.

Khi xây dựng một mô hình AI, chất lượng dữ liệu cũng quan trọng như các thuật toán đằng sau nó. Bất cứ khi nào nhiều người cùng dán nhãn hoặc xem xét cùng một dữ liệu, chắc chắn sẽ xảy ra bất đồng quan điểm. Điều này đúng trong nhiều lĩnh vực, bao gồm nghiên cứu, chăm sóc sức khỏe và giáo dục.

Đặc biệt, trong thị giác máy tính , một nhánh của AI liên quan đến các mô hình đào tạo như Ultralytics YOLO11 để diễn giải dữ liệu trực quan như hình ảnh hoặc video, các ví dụ được gắn nhãn đóng vai trò quan trọng. Nếu các nhãn này không nhất quán, các mô hình thị giác máy tính có thể gặp khó khăn trong việc học các mẫu chính xác.

Độ tin cậy giữa các đánh giá viên (IRR) đo lường mức độ nhất quán giữa các cá nhân, hay người dán nhãn, về một nhiệm vụ. Nó giúp theo dõi tính nhất quán và xác định những thiếu sót trong đào tạo, hướng dẫn hoặc diễn giải. Điều này đặc biệt quan trọng trong đào tạo mô hình tùy chỉnh, nơi các mô hình AI được xây dựng bằng cách sử dụng dữ liệu cụ thể cho một mục đích cụ thể.

Trong bài viết này, chúng ta sẽ tìm hiểu độ tin cậy giữa các nhà đánh giá là gì, cách đo lường và cách cải thiện nó trong các dự án thực tế. Hãy cùng bắt đầu nhé!

Độ tin cậy giữa các đánh giá viên là gì?

Độ tin cậy giữa những người đánh giá đo lường tần suất hai hoặc nhiều người (còn gọi là người đánh giá) đồng ý khi gắn nhãn, xếp hạng hoặc đánh giá cùng một nội dung. Chỉ số này được sử dụng để kiểm tra mức độ nhất quán khi những người đánh giá khác nhau sử dụng các tiêu chí nhất định. Sự đồng thuận cao giữa những người đánh giá có nghĩa là một nhiệm vụ được xác định rõ ràng và được hiểu rõ.

Khái niệm này được sử dụng trong nhiều lĩnh vực khác nhau. Tùy thuộc vào lĩnh vực, nó được gọi bằng nhiều tên khác nhau, chẳng hạn như thỏa thuận giữa các đánh giá viên, độ tin cậy giữa các quan sát viên, hoặc độ tin cậy giữa các nhà mã hóa. Tuy nhiên, nguyên tắc cơ bản vẫn không thay đổi.

Trong Vision AI, độ tin cậy giữa các chuyên gia đánh giá là một phần quan trọng của quy trình gắn nhãn dữ liệu. Việc đào tạo các mô hình thị giác máy tính thường yêu cầu gắn nhãn cho các tập dữ liệu hình ảnh hoặc khung hình video khổng lồ, do đó nhiều nhà phát triển AI cùng làm việc trên cùng một dữ liệu.

Để có kết quả chính xác, họ phải tuân theo cùng một hướng dẫn dán nhãn. Ví dụ, khi dán nhãn động vật, mọi người cần thống nhất rõ ràng về việc thế nào được coi là chó, cách vẽ khung giới hạn xung quanh nó, và liệu có nên dán nhãn hay bỏ qua các vật thể mờ.

Hình 1. Hiểu độ tin cậy giữa các nhà đánh giá (Hình ảnh của tác giả)

Độ tin cậy giữa người đánh giá so với độ tin cậy trong người đánh giá và độ tin cậy kiểm tra lại

Khi mọi người tham gia vào việc ghi nhãn hoặc chấm điểm dữ liệu, có ba loại độ tin cậy chính cần xem xét. Mỗi loại có mục đích khác nhau trong việc đo lường mức độ nhất quán của kết quả. Dưới đây là phân tích chi tiết hơn về từng loại:

  • Độ tin cậy giữa những người đánh giá: Độ tin cậy giữa những người đánh giá xem xét mức độ đồng thuận giữa những người khác nhau thực hiện cùng một nhiệm vụ. Điều này đặc biệt hữu ích khi nhiều người chú thích cùng tham gia vào các dự án như gắn nhãn hình ảnh, phân tích cảm xúc hoặc đánh giá y khoa.
  • Độ tin cậy nội bộ người đánh giá: Chuyển trọng tâm sang một người duy nhất. Độ tin cậy nội bộ người đánh giá kiểm tra xem người đánh giá có duy trì tính nhất quán khi lặp lại cùng một nhiệm vụ tại các thời điểm khác nhau hay không. Nếu nhãn thay đổi quá nhiều, nguyên nhân có thể là do hướng dẫn không rõ ràng hoặc nhiệm vụ chưa được làm rõ.
  • Độ tin cậy kiểm tra-tái kiểm tra: Độ tin cậy kiểm tra-tái kiểm tra không tập trung vào người chú thích mà vào công cụ hoặc phương pháp được sử dụng. Nó đo lường liệu kết quả có giống nhau khi lặp lại thử nghiệm trong các điều kiện tương tự hay không. Nếu đầu ra vẫn nhất quán, phương pháp được coi là đáng tin cậy. 

Các biện pháp này cùng nhau giúp xác nhận rằng cả con người và quy trình đều đang tạo ra kết quả ổn định và đáng tin cậy.

Hình 2. Tổng quan về độ tin cậy giữa các người đánh giá, trong nội bộ người đánh giá và kiểm tra lại (Hình ảnh của tác giả)

Tại sao độ tin cậy giữa các đánh giá viên lại quan trọng?

Trong các dự án Vision AI quy mô lớn, chất lượng dữ liệu được gắn nhãn ảnh hưởng trực tiếp đến hiệu suất của mô hình. Ngay cả những khác biệt nhỏ trong cách người chú thích áp dụng hướng dẫn cũng có thể dẫn đến sự không nhất quán, gây nhầm lẫn cho mô hình trong quá trình huấn luyện. Theo thời gian, điều này có thể dẫn đến dự đoán không chính xác, lãng phí tài nguyên và nhu cầu gắn nhãn lại tốn kém.

Việc đo lường độ tin cậy giữa các chuyên gia đánh giá giúp phát hiện sớm những vấn đề này. Độ đồng thuận cao đồng nghĩa với việc các chuyên gia chú thích được sắp xếp hợp lý, tạo ra các tập dữ liệu rõ ràng và đáng tin cậy hơn. Độ đồng thuận thấp báo hiệu rằng các hướng dẫn, ví dụ hoặc đào tạo có thể cần được tinh chỉnh trước khi dự án tiếp tục. Bằng cách đảm bảo các chuyên gia dán nhãn làm việc đồng bộ, các nhóm có thể xây dựng các mô hình AI học hiệu quả hơn và mang lại kết quả tốt hơn trong các ứng dụng thực tế.

Những cân nhắc thực tế cho độ tin cậy giữa các đánh giá viên

Sau đây là một số cân nhắc thực tế quan trọng cần ghi nhớ khi làm việc với nhiều người đánh giá và muốn duy trì độ tin cậy cao giữa các người đánh giá:

  • Nhiệm vụ mơ hồ hoặc chủ quan: Khi việc dán nhãn liên quan đến việc giải thích, chẳng hạn như quyết định xem một vật thể mờ có phải là người đi bộ hay không hoặc đánh giá chất lượng hình ảnh, nhiều người đánh giá sẽ giúp đảm bảo các quyết định nhất quán và không bị ảnh hưởng quá nhiều bởi thành kiến cá nhân.

  • Nhiệm vụ đơn giản, khách quan: Các nhiệm vụ đơn giản như đếm số lượng ô tô trong hình ảnh hoặc xác nhận xem có vật thể nào không thường chỉ cần một người đánh giá được đào tạo bài bản, vì sự đồng thuận thường cao khi quy trình được xác định rõ ràng.

  • Hướng dẫn ghi nhãn rõ ràng: Hướng dẫn chi tiết, dễ làm theo giúp giảm thiểu sự không chắc chắn về cách áp dụng nhãn, từ đó cải thiện sự đồng thuận giữa những người đánh giá. Hướng dẫn nên bao gồm rõ ràng các trường hợp ngoại lệ để tránh diễn giải không nhất quán.

  • Đào tạo và hiệu chuẩn định kỳ: Ngay cả những người đánh giá giàu kinh nghiệm cũng có thể đưa ra những đánh giá sai lệch theo thời gian. Các buổi đào tạo và kiểm tra hiệu chuẩn thường xuyên giúp duy trì tính nhất quán và giảm thiểu sai lệch của người thực nghiệm.

Các biện pháp đánh giá độ tin cậy giữa các nhà đánh giá

Có một số cách để đo lường độ tin cậy giữa các đánh giá viên, và lựa chọn tốt nhất phụ thuộc vào loại dữ liệu và nhiệm vụ. Một số phương pháp phù hợp với những người đánh giá đơn lẻ xử lý các câu hỏi có hoặc không đơn giản, trong khi những phương pháp khác được thiết kế cho các tình huống liên quan đến nhiều người đánh giá.

Các phương pháp phổ biến bao gồm tỷ lệ phần trăm đồng thuận, hệ số Kappa của Cohen, hệ số Kappa của Fleiss và hệ số tương quan nội lớp. Mỗi phương pháp đo lường mức độ đồng thuận giữa những người đánh giá và tính đến khả năng một số đồng thuận có thể xảy ra ngẫu nhiên.

Kappa của Cohen và Kappa của Fleiss

Chỉ số Kappa của Cohen là một phương pháp được sử dụng rộng rãi để đo lường độ tin cậy giữa hai người chấm điểm. Phương pháp này tính toán tần suất họ đồng ý về một nhiệm vụ, đồng thời điều chỉnh khả năng một số sự đồng thuận có thể xảy ra ngẫu nhiên. Điểm số dao động từ -1 đến 1, với 1 biểu thị sự đồng thuận hoàn toàn và 0 biểu thị sự đồng thuận không hơn gì việc đoán mò ngẫu nhiên.

Tương tự, Fleiss' Kappa được sử dụng khi có nhiều hơn hai người đánh giá tham gia. Phương pháp này cung cấp điểm tổng thể cho thấy mức độ nhất quán của nhóm. Cả hai phương pháp đều được sử dụng cho các tác vụ có danh mục cố định, chẳng hạn như gắn nhãn hình ảnh hoặc gắn nhãn cảm xúc. Chúng dễ tính toán và được hỗ trợ bởi hầu hết các công cụ chú thích.

Phần trăm đồng thuận và hệ số tương quan nội lớp (ICC)

Một cách khác để đo lường độ tin cậy giữa các đánh giá viên là tỷ lệ phần trăm đồng thuận, tính toán tỷ lệ phần trăm số lần người đánh giá đưa ra cùng một quyết định. Mặc dù dễ sử dụng, nhưng phương pháp này không tính đến sự đồng thuận có thể xảy ra ngẫu nhiên.

Trong khi đó, hệ số tương quan nội lớp là một phương pháp tiên tiến hơn được sử dụng cho dữ liệu liên tục hoặc theo thang đo. Phương pháp này đo lường mức độ nhất quán của xếp hạng giữa nhiều người đánh giá và thường được áp dụng trong nghiên cứu liên quan đến điểm số, phép đo hoặc các loại dữ liệu khác ngoài các danh mục cố định.

Ví dụ và ứng dụng về độ tin cậy giữa các đánh giá viên

Bây giờ chúng ta đã hiểu rõ hơn về cách đo lường độ tin cậy giữa các người đánh giá, hãy cùng tìm hiểu cách sử dụng các phương pháp này trong các ứng dụng thực tế.

Độ tin cậy giữa các nhà đánh giá trong chú thích hình ảnh y tế

Khi nói đến hình ảnh y tế , ngay cả những khác biệt nhỏ trong diễn giải cũng có thể dẫn đến những thay đổi đáng kể về kết quả. Ví dụ, các bác sĩ X-quang thường được yêu cầu xác định các mẫu hình tinh tế, mơ hồ hoặc khó định nghĩa. Khi những mẫu hình này trở thành dữ liệu huấn luyện cho các hệ thống AI, rủi ro sẽ càng cao hơn. Nếu các chuyên gia dán nhãn khác nhau cho cùng một lần quét, mô hình có thể học sai mẫu hình hoặc hoàn toàn không học được.

Độ tin cậy giữa các chuyên gia đánh giá giúp các nhóm xử lý dữ liệu này đánh giá mức độ nhất quán thực sự của các đánh giá chuyên gia. Ví dụ, trong một nghiên cứu gần đây tập trung vào chụp OCT võng mạc , hai chuyên gia đánh giá đã dán nhãn 500 hình ảnh. 

Độ đồng thuận cao đối với các đặc điểm rõ ràng như drusen (các lắng đọng màu vàng dưới võng mạc), với điểm kappa là 0,87. Nhưng đối với các yếu tố khó xác định hơn như các tiêu điểm phản xạ cao (các điểm sáng nhỏ nhìn thấy trên hình ảnh quét võng mạc), điểm số giảm xuống còn 0,33. Điều này cho thấy các đặc điểm rõ ràng và được xác định rõ ràng hơn có xu hướng đưa ra các đánh giá chuyên môn nhất quán hơn, trong khi các đặc điểm mơ hồ để lại nhiều khoảng trống hơn cho việc diễn giải.

Hình 3. Ví dụ về nhãn cho các đặc điểm khác nhau liên quan đến bệnh võng mạc ( Nguồn )

Bộ dữ liệu xe tự hành và độ tin cậy giữa các nhà đánh giá

Việc đào tạo các mô hình AI cho hệ thống lái xe tự động phụ thuộc vào các nhãn chính xác và nhất quán trong nhiều điều kiện đường xá khác nhau. Các chuyên gia chú thích làm việc trong các dự án như vậy thường được yêu cầu nhận dạng người đi bộ, phương tiện, biển báo giao thông và vạch kẻ đường, thường là trong điều kiện ánh sáng yếu hoặc đông đúc. 

Những quyết định này định hình cách mô hình học cách phản ứng trong môi trường thực tế khắc nghiệt. Độ tin cậy giữa các người đánh giá cho phép các nhóm kiểm tra xem các nhãn đó có được áp dụng theo cùng một cách trên các người chú thích hay không. 

Hình 4. Một cái nhìn về sự bất đồng trong chú thích ( Nguồn )

Ngoài độ tin cậy giữa các nhà đánh giá: Các biện pháp đảm bảo chất lượng khác

Mặc dù việc đo lường độ tin cậy giữa các chuyên gia đánh giá là một bước quan trọng trong việc xây dựng giải pháp AI , nhưng nó cũng là một phần của quy trình đảm bảo chất lượng rộng hơn. Dưới đây là một số phương pháp khác có thể giúp cải thiện chất lượng dữ liệu trên toàn bộ các nhóm và dự án:

  • Hướng dẫn chú thích rõ ràng: Hướng dẫn phải giải thích chính xác cách dán nhãn để mọi người đều làm việc theo cùng một tiêu chuẩn.

  • Đào tạo và hiệu chỉnh: Các buổi đào tạo thường xuyên giúp người chú thích duy trì sự nhất quán và có không gian để đặt câu hỏi và điều chỉnh theo các trường hợp cụ thể.

  • Kiểm tra chất lượng liên tục: Kiểm tra đột xuất và các ví dụ tiêu chuẩn vàng có thể phát hiện lỗi sớm và duy trì chất lượng cao khi dự án mở rộng.

  • Giải quyết bất đồng: Khi người chú thích không đồng ý, cần có một quy trình rõ ràng để xem xét các trường hợp đó và đưa ra quyết định cuối cùng.

  • Nhóm chú thích đa dạng: Việc thu hút những người có xuất thân khác nhau có thể làm giảm sự thiên vị và cải thiện khả năng thể hiện sự thay đổi trong thế giới thực của tập dữ liệu.

Những điểm chính

Độ tin cậy giữa các chuyên gia đánh giá đo lường mức độ nhất quán trong việc áp dụng nhãn hoặc đưa ra quyết định của mọi người. Các phương pháp như Cohen's Kappa, Fleiss' Kappa và ICC giúp định lượng sự đồng thuận đó. Với các hướng dẫn rõ ràng, đào tạo bài bản và kiểm soát sai lệch, các chú thích đáng tin cậy sẽ mang lại dữ liệu mạnh mẽ hơn và kết quả mô hình tốt hơn.

Tham gia cộng đồng của chúng tôi và khám phá kho lưu trữ GitHub để tìm hiểu thêm về AI. Nếu bạn đang muốn bắt đầu dự án Vision AI của riêng mình, hãy xem các tùy chọn cấp phép của chúng tôi. Bạn cũng có thể xem AI trong chăm sóc sức khỏeVision AI trong bán lẻ đang tạo ra tác động như thế nào bằng cách truy cập trang giải pháp của chúng tôi.

Hãy cùng xây dựng tương lai
của AI cùng nhau!

Bắt đầu hành trình của bạn với tương lai của máy học

Bắt đầu miễn phí
Liên kết đã được sao chép vào clipboard