评分者间信度:定义、示例、计算
了解评分者间信度 (Inter-rater reliability)、Cohen's Kappa、ICC、评分者培训和百分比一致性。学习这些统计方法如何确保研究和数据分析中观察者之间的一致性。

当你构建 AI 模型时,数据质量与背后的算法同等重要。每当多人对同一数据进行标注或审查时,分歧在所难免。这种情况在研究、医疗保健和教育等许多领域都很常见。
特别是在 计算机视觉(AI 的一个分支,涉及训练 Ultralytics YOLO11 等模型以解读图像或视频等视觉数据)中,标注好的样本起着至关重要的作用。如果这些标注不一致,计算机视觉模型可能会难以学习到正确的模式。
评分者间信度 (IRR) 用于衡量不同个体(即标注员)在执行任务时的一致性程度。它有助于监控一致性并找出在培训、指导准则或解读方面的差距。这在自定义模型训练中尤为重要,因为 AI 模型是利用特定数据为特定目的而构建的。
在本文中,我们将探讨什么是评分者间信度、如何衡量它,以及如何在实际项目中改进它。让我们开始吧!
Link to this section什么是评分者间信度?#
评分者间信度用于衡量两个或多个人(也称为评分者)在标注、评分或审查相同内容时达成一致的频率。它用于检查不同评分者使用给定标准的稳定程度。评分者之间的高度一致意味着任务定义明确且理解清晰。
这一概念被应用于不同领域。根据领域的不同,它有不同的名称,例如评分者间一致性、观察者间信度或编码员间信度。然而,其基本原理是一样的。
在视觉 AI 中,评分者间信度是数据标注流程的关键部分。训练 计算机视觉模型 通常需要标注海量的图像或视频帧数据集,因此多名 AI 开发人员会共同处理同一批数据。
为了获得准确的结果,他们必须遵循相同的标注准则。例如,在标注动物时,每个人都需要就什么是狗、如何围绕它绘制边界框以及是否标注或忽略模糊物体达成明确共识。

图 1. 理解评分者间信度(作者制图)
Link to this section评分者间信度 vs. 评分者内信度与重测信度#
当涉及人员对数据进行标注或评分时,有三种主要的信度类型需要考虑。每种类型在衡量结果稳定性方面都有不同的用途。以下是每一项的详细介绍:
-
评分者间信度: 评分者间信度考察执行相同任务的不同人员之间存在多少一致性。这在涉及多个标注员参与图像标注、情感分析或医学审查等项目时特别有用。
-
评分者内信度: 重点转向了个人。评分者内信度检查评分者在不同时间重复执行同一任务时是否保持一致。如果标注变化太大,则可能是由于准则不明确或任务定义不清晰导致的。
-
重测信度: 重测信度关注的不是标注员,而是所使用的工具或方法。它测量在相似条件下重复测试时是否会出现相同的结果。如果输出保持一致,则认为该方法是可靠的。
这些指标共同帮助确认人员和流程是否都能产生稳定、可信的结果。

图 2. 评分者间信度、评分者内信度和重测信度概览(作者制图)
Link to this section为什么评分者间信度很重要?#
在大型视觉 AI 项目中,标注数据的质量直接影响模型的性能。即使标注员应用准则的方式存在微小差异,也会引入不一致性,从而在训练过程中困扰模型。随着时间的推移,这可能导致预测不准确、资源浪费以及昂贵的重新标注需求。
衡量评分者间信度有助于及早发现这些问题。高一致性意味着标注员步调一致,能够生成更干净、更可靠的 数据集。低一致性则发出信号,表明在项目推进之前,需要完善说明、示例或培训。通过确保标注员协同工作,团队能够构建出学习效果更好并在实际应用中提供更优结果的 AI 模型。
Link to this section关于评分者间信度的实践考量#
在与多名评分者合作并力求维持高评分者间信度时,以下是一些需要牢记的关键实践考量因素:
- 模糊或主观任务: 当标注涉及解读时,例如判断模糊物体是行人还是评判图像质量,多名评分者有助于确保决策一致,且不会过度受到个人偏见的影响。
- 简单、客观的任务: 像 计数 图像中汽车数量或确认某物体是否存在这样直接的任务,通常只需要一名训练有素的评分者,因为一旦流程明确,一致性通常很高。
- 明确的标注准则: 详细且易于遵循的说明可以减少标注应用过程中的不确定性,从而提高评分者之间的一致性。准则应明确涵盖边缘情况,以防止出现不一致的解读。
- 定期培训与校准: 即使是经验丰富的评分者,其判断力也可能随时间发生漂移。定期的培训会议和校准检查有助于保持一致性并最大程度地减少实验者偏见。
Link to this section评分者间信度的衡量指标#
衡量评分者间信度的方法有多种,最佳选择取决于数据和任务的类型。有些方法适用于单名评分者处理简单的“是/否”问题,而另一些则专为涉及多名评分者的情况而设计。
常见的方法包括百分比一致性 (Percent agreement)、Cohen’s Kappa、Fleiss’ Kappa 以及组内相关系数 (Intraclass correlation coefficient)。每种方法都衡量了评分者之间的一致性水平,并考虑了某些一致性可能是偶然发生的可能性。
Link to this sectionCohen’s Kappa 和 Fleiss’ Kappa#
Cohen’s Kappa 是衡量两名评分者之间评分者间信度的常用方法。它计算他们达成一致的频率,同时调整了部分一致性可能出于偶然的概率。分数范围为 -1 到 1,其中 1 表示完全一致,0 表示一致性不优于随机猜测。
类似地,Fleiss’ Kappa 用于涉及两名以上评分者的情况。它提供一个总体分数,显示团队的一致性如何。这两种方法都用于具有设定类别的任务,例如 标注图像 或情感标记。它们易于计算,并得到大多数标注工具的支持。
Link to this section百分比一致性与组内相关系数 (ICC)#
衡量评分者间信度的另一种方法是百分比一致性,它计算评分者做出相同决策的百分比。虽然使用简单,但它没有考虑到可能偶然发生的一致性。
同时,组内相关系数是一种更高级的方法,用于连续数据或基于量表的数据。它衡量了跨多名评分者的一致性,通常应用于涉及分数、测量值或固定类别之外的其他数据类型的研究中。
Link to this section评分者间信度的示例与应用#
既然我们对如何衡量评分者间信度有了更好的理解,让我们看看这些方法如何在实际应用中使用。
Link to this section医疗影像标注中的评分者间信度#
在 医疗影像 领域,即使是解读上的微小差异也可能导致结果的显著不同。例如,放射科医生经常被要求识别细微、模糊或难以定义的模式。当这些模式成为 AI 系统的训练数据时,风险就更高了。如果专家对同一扫描图的标注不同,模型可能会学习到错误的模式,或者完全无法学习。
评分者间信度有助于处理此类数据的团队评估专家判断的一致性程度。例如,在最近一项针对 视网膜 OCT 扫描 的研究中,两名评分者标注了 500 张图像。
对于诸如玻璃疣(视网膜下的黄色沉积物)等清晰特征,一致性很高,Kappa 分数为 0.87。但对于诸如高反射灶(视网膜扫描中看到的细小亮斑)等难以定义的要素,分数降至 0.33。这表明越清晰、定义越明确的特征越倾向于产生一致的专家判断,而模糊的特征则留下了更多的解读空间。

图 3. 与视网膜疾病相关不同特征的标注示例(来源)
Link to this section自动驾驶数据集与评分者间信度#
训练用于 自动驾驶 系统的 AI 模型,依赖于在广泛的路况下保持准确、一致的标注。从事此类项目的标注员通常需要识别行人、车辆、交通标志和车道线,且往往是在光线不足或场景拥挤的情况下。
这些决策决定了模型在恶劣的现实环境中学习响应的方式。评分者间信度使团队能够检查这些标注在不同标注员之间是否以相同的方式进行应用。

图 4. 标注分歧一览(来源)
Link to this section超越评分者间信度:其他质量保证措施#
虽然衡量评分者间信度是构建 AI 解决方案 的关键一步,但它只是更广泛的质量保证流程的一部分。以下是一些有助于改善团队和项目间数据质量的其他实践:
- 明确的标注准则: 说明应准确解释如何应用标注,以便每个人都按照相同的标准工作。
- 培训与校准: 定期会议有助于标注员保持同步,并为他们提供提问和适应边缘情况的空间。
- 持续质量检查: 抽查和黄金标准示例可以及早发现错误,并随着项目的扩展保持高质量。
- 分歧解决: 当标注员出现分歧时,应有一个明确的流程来审查这些案例并做出最终决定。
- 多元化的标注员池: 让来自不同背景的人员参与可以减少偏见,并提高数据集代表现实世界差异的程度。
Link to this section关键要点#
评分者间信度衡量了人员在应用标注或做出决策时的稳定程度。Cohen’s Kappa、Fleiss’ Kappa 和 ICC 等方法有助于量化这种一致性。通过清晰的准则、培训和偏见控制,可靠的标注会带来更强大的数据和更优的模型结果。
加入 我们的社区 并探索我们的 GitHub 存储库 以了解更多关于 AI 的信息。如果你想开始自己的视觉 AI 项目,请查看我们的 许可选项。你还可以访问我们的解决方案页面,了解 医疗保健中的 AI 和 零售中的视觉 AI 如何产生影响。






