评分者之间的可靠性:定义、示例和计算

阿比拉米-维纳

5 分钟阅读

2025 年 8 月 18 日

了解评分者之间的可靠性、科恩卡帕(Cohen's Kappa)、ICC、培训率和百分比一致性。了解这些统计测量如何确保研究和数据分析中观察者之间的一致性和一致性。

在建立人工智能模型时,数据的质量与背后的算法同样重要。每当多人对同一数据进行标注或审查时,分歧就会出现。这在许多领域都是如此,包括研究、医疗保健和教育。

特别是在计算机视觉领域,这是人工智能的一个分支,涉及训练Ultralytics YOLO11等模型来解释图像或视频等视觉数据,有标签的示例起着至关重要的作用。如果这些标签不一致,计算机视觉模型就很难学习到正确的模式。

标注者之间的可靠性 (IRR) 衡量不同个人或标注者在某项任务上达成一致的程度。它有助于监控一致性并找出培训、指南或解释方面的差距。这在定制模型训练中尤为重要,因为人工智能模型是根据特定目的使用特定数据建立的。

在本文中,我们将探讨什么是互评可靠性、如何测量互评可靠性以及如何在实际项目中提高互评可靠性。让我们开始吧!

什么是评分者之间的可靠性?

评分者之间的可靠性衡量的是两个或两个以上的人(也称为评分者)在对同一内容进行标注、评分或审核时达成一致的频率。它用于检查不同评分者在使用给定标准时的一致性。评分者之间的高度一致意味着任务定义明确、理解清晰。

这一概念用于不同的领域。根据领域的不同,它也有不同的名称,如评分者之间的信度、观察者之间的信度或编码者之间的信度。不过,其基本原理是相同的。

在视觉人工智能中,互评可靠性是数据标注过程的关键部分。训练计算机视觉模型通常需要标注大量的图像或视频帧数据集,因此需要多名人工智能开发人员共同处理相同的数据。

为了得到准确的结果,他们必须遵循相同的标注准则。例如,在给动物贴标签时,每个人都需要就什么算狗、如何画出狗周围的边框以及是贴标签还是忽略模糊的物体达成明确的一致意见。

图 1.了解评分者之间的可靠性(图片由作者提供)

评分者之间的可靠性与评分者内部的可靠性以及测试-再测试的可靠性

当人们参与数据标注或评分时,有三种主要的可靠性需要考虑。每种类型在衡量结果的一致性方面都有不同的作用。下面我们来详细了解一下每一种类型:

  • 评分者之间的可靠性:注释者之间的可靠性是指不同注释者在执行同一任务时的一致程度。当多个注释者参与图像标注、情感分析或医学评论等项目时,这一点尤其有用。
  • 评分者内部的可靠性:它将重点转移到一个人身上。评分者内部信度检查评分者在不同时间重复相同任务时是否保持一致。如果标签变化过大,可能是指导方针不明确或任务不清晰造成的。
  • 重测可靠性:重测信度的重点不是注释者,而是所使用的工具或方法。它衡量的是在类似条件下重复测试时是否出现相同的结果。如果输出结果保持一致,则认为该方法是可靠的。 

这些措施有助于确认人员和流程都在产生稳定、可信的结果。

图 2.评分者之间、评分者内部和测试-复测可靠性概览(图片由作者提供)

为什么评分者之间的可靠性很重要?

在大规模视觉人工智能项目中,标注数据的质量会直接影响模型的性能。在训练过程中,即使标注者应用指南的方式存在细微差别,也会造成不一致,从而混淆模型。随着时间的推移,这可能会导致预测不准确、资源浪费,并需要进行昂贵的重新标注。

测量注释者之间的可靠性有助于及早发现这些问题。高一致性意味着注释者是一致的,能产生更干净、更可靠的数据集。一致性低则表明,在项目推进之前,可能需要对说明、示例或训练进行改进。通过确保标注者同步工作,团队可以建立学习效率更高的人工智能模型,并在实际应用中提供更好的结果。

评分者之间可靠性的实际考虑因素

以下是在与多名评分员合作并力求保持评分员之间高度可靠性的过程中需要牢记的一些关键实际注意事项:

  • 模糊或主观的任务: 当标注涉及解释时,例如判断一个模糊的物体是否是行人或判断图像的质量,多个评分者有助于确保决策的一致性,而不会受到个人偏见的过度影响。

  • 简单、客观的任务: 简单的任务,如计算图像中的汽车数量或确认物体是否存在,通常只需要一名训练有素的评分员,因为一旦流程定义明确,一致性通常会很高。

  • 清晰的标签指南: 详细、易懂的说明可减少标签应用中的不确定性,从而提高评分者之间的一致性。指南应明确涵盖边缘情况,以防止不一致的解释。

  • 定期培训和校准:即使是经验丰富的评分员也会随着时间的推移在判断上出现偏差。定期培训和校准检查有助于保持一致性,最大限度地减少实验者的偏差。

评分者之间的可靠性测量

测量评分者间可靠性有多种方法,最佳选择取决于数据和任务的类型。有些方法适用于单个评分者处理简单的是或否问题,而另一些方法则适用于涉及多个评分者的情况。

常见的方法包括百分比一致、科恩卡帕、弗莱斯卡帕和类内相关系数。每种方法都能衡量评分者之间的一致程度,并考虑到某些一致可能是偶然出现的。

科恩的卡帕和弗莱斯的卡帕

Cohen's Kappa 是一种广泛使用的方法,用于测量两个评分者之间的评分可靠性。它计算的是两个评分者在某项任务上达成一致的频率,同时考虑到偶然出现某些一致的可能性。得分范围在-1 到 1 之间,1 表示完全一致,0 表示一致程度不如随机猜测。

同样,弗莱斯卡帕(Fleiss' Kappa)也适用于两个以上的评分者。它提供了一个总分,显示了小组的一致性。这两种方法都适用于有固定类别的任务,如标注图像或标记情感。它们易于计算,大多数标注工具都支持。

一致百分比和类内相关系数 (ICC)

衡量评分者之间可靠性的另一种方法是百分比一致,即计算评分者做出相同决定的百分比。虽然使用简单,但它并不考虑偶然出现的一致性。

同时,类内相关系数是一种更先进的方法,用于连续或基于量表的数据。它衡量多个评分者之间评分的一致性,通常应用于涉及分数、测量值或其他数据类型的研究,而不局限于固定类别。

评分者之间的可靠性实例和应用

既然我们已经对如何测量评分者之间的信度有了更好的了解,下面就让我们来看看这些方法在实际应用中是如何使用的。

医学影像注释的同行间可靠性

医学影像方面,即使是细微的解释差异也会导致结果发生重大变化。例如,放射科医生经常被要求识别微妙、模糊或难以定义的模式。当这些模式成为人工智能系统的训练数据时,风险就更大了。如果专家们对同一扫描结果的标注不同,模型可能会学习到错误的模式或完全无法学习。

评分者之间的可靠性有助于处理此类数据的团队评估专家判断的一致性。例如,在最近一项以视网膜 OCT 扫描为重点的研究中,两名评分员对 500 张图像进行了标注。 

对于像色素沉着(视网膜下的黄色沉积物)这样清晰的特征,一致性很高,kappa 得分为 0.87。但对于像高反射灶(视网膜扫描中看到的小亮点)这样较难定义的元素,卡方得分则下降到 0.33。这表明,更清晰、更明确的特征往往能产生更一致的专家判断,而模棱两可的特征则留下了更多的解释空间。

图 3.与视网膜疾病相关的不同特征的标签示例(资料来源)

自动驾驶汽车数据集和评分者之间的可靠性

自动驾驶系统训练人工智能模型有赖于在各种路况下准确、一致的标注。参与此类项目的标注者通常需要识别行人、车辆、交通标志和车道标记,而且往往是在光线不足或拥挤的场景中。 

这些决定决定了模型如何学会在严酷的现实环境中做出反应。评分者之间的可靠性使团队能够检查这些标签是否以相同的方式应用于不同的注释者。 

图 4.注释分歧一览(资料来源)

超越评分者之间的可靠性:其他质量保证措施

虽然衡量评分者之间的可靠性是构建人工智能解决方案的关键步骤,但它只是更广泛的质量保证流程的一部分。以下是一些有助于提高团队和项目数据质量的其他做法:

  • 清晰的标注指南: 说明应准确解释如何使用标签,以便每个人都按照相同的标准工作。

  • 培训和校准: 定期培训有助于标注员保持一致,并为他们提供提问和调整以适应边缘情况的空间。

  • 持续的质量检查: 抽查和黄金标准范例可以及早发现错误,并随着项目规模的扩大保持高质量。

  • 解决分歧: 当注释员出现分歧时,应该有一个明确的流程来审查这些情况并做出最终决定。

  • 多元化的注释者库: 让不同背景的人参与进来可以减少偏差,提高数据集对真实世界变化的反映程度。

主要收获

评分者之间的可靠性衡量的是人们在使用标签或做出决定时的一致性。Cohen's Kappa、Fleiss' Kappa 和 ICC 等方法有助于量化这种一致性。有了明确的指导原则、培训和偏差控制,可靠的注释能带来更强的数据和更好的模型结果。

加入我们的社区,探索我们的GitHub 存储库,了解有关人工智能的更多信息。如果您想启动自己的视觉人工智能项目,请查看我们的 许可选项。您还可以访问我们的解决方案页面,了解人工智能在医疗保健零售业中的应用。

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板