在建立人工智能模型时,数据的质量与背后的算法同样重要。每当多人对同一数据进行标注或审查时,分歧就会出现。这在许多领域都是如此,包括研究、医疗保健和教育。
特别是在计算机视觉领域,这是人工智能的一个分支,涉及训练Ultralytics YOLO11等模型来解释图像或视频等视觉数据,有标签的示例起着至关重要的作用。如果这些标签不一致,计算机视觉模型就很难学习到正确的模式。
标注者之间的可靠性 (IRR) 衡量不同个人或标注者在某项任务上达成一致的程度。它有助于监控一致性并找出培训、指南或解释方面的差距。这在定制模型训练中尤为重要,因为人工智能模型是根据特定目的使用特定数据建立的。
在本文中,我们将探讨什么是互评可靠性、如何测量互评可靠性以及如何在实际项目中提高互评可靠性。让我们开始吧!
评分者之间的可靠性衡量的是两个或两个以上的人(也称为评分者)在对同一内容进行标注、评分或审核时达成一致的频率。它用于检查不同评分者在使用给定标准时的一致性。评分者之间的高度一致意味着任务定义明确、理解清晰。
这一概念用于不同的领域。根据领域的不同,它也有不同的名称,如评分者之间的信度、观察者之间的信度或编码者之间的信度。不过,其基本原理是相同的。
在视觉人工智能中,互评可靠性是数据标注过程的关键部分。训练计算机视觉模型通常需要标注大量的图像或视频帧数据集,因此需要多名人工智能开发人员共同处理相同的数据。
为了得到准确的结果,他们必须遵循相同的标注准则。例如,在给动物贴标签时,每个人都需要就什么算狗、如何画出狗周围的边框以及是贴标签还是忽略模糊的物体达成明确的一致意见。
当人们参与数据标注或评分时,有三种主要的可靠性需要考虑。每种类型在衡量结果的一致性方面都有不同的作用。下面我们来详细了解一下每一种类型:
这些措施有助于确认人员和流程都在产生稳定、可信的结果。
在大规模视觉人工智能项目中,标注数据的质量会直接影响模型的性能。在训练过程中,即使标注者应用指南的方式存在细微差别,也会造成不一致,从而混淆模型。随着时间的推移,这可能会导致预测不准确、资源浪费,并需要进行昂贵的重新标注。
测量注释者之间的可靠性有助于及早发现这些问题。高一致性意味着注释者是一致的,能产生更干净、更可靠的数据集。一致性低则表明,在项目推进之前,可能需要对说明、示例或训练进行改进。通过确保标注者同步工作,团队可以建立学习效率更高的人工智能模型,并在实际应用中提供更好的结果。
以下是在与多名评分员合作并力求保持评分员之间高度可靠性的过程中需要牢记的一些关键实际注意事项:
测量评分者间可靠性有多种方法,最佳选择取决于数据和任务的类型。有些方法适用于单个评分者处理简单的是或否问题,而另一些方法则适用于涉及多个评分者的情况。
常见的方法包括百分比一致、科恩卡帕、弗莱斯卡帕和类内相关系数。每种方法都能衡量评分者之间的一致程度,并考虑到某些一致可能是偶然出现的。
Cohen's Kappa 是一种广泛使用的方法,用于测量两个评分者之间的评分可靠性。它计算的是两个评分者在某项任务上达成一致的频率,同时考虑到偶然出现某些一致的可能性。得分范围在-1 到 1 之间,1 表示完全一致,0 表示一致程度不如随机猜测。
同样,弗莱斯卡帕(Fleiss' Kappa)也适用于两个以上的评分者。它提供了一个总分,显示了小组的一致性。这两种方法都适用于有固定类别的任务,如标注图像或标记情感。它们易于计算,大多数标注工具都支持。
衡量评分者之间可靠性的另一种方法是百分比一致,即计算评分者做出相同决定的百分比。虽然使用简单,但它并不考虑偶然出现的一致性。
同时,类内相关系数是一种更先进的方法,用于连续或基于量表的数据。它衡量多个评分者之间评分的一致性,通常应用于涉及分数、测量值或其他数据类型的研究,而不局限于固定类别。
既然我们已经对如何测量评分者之间的信度有了更好的了解,下面就让我们来看看这些方法在实际应用中是如何使用的。
在医学影像方面,即使是细微的解释差异也会导致结果发生重大变化。例如,放射科医生经常被要求识别微妙、模糊或难以定义的模式。当这些模式成为人工智能系统的训练数据时,风险就更大了。如果专家们对同一扫描结果的标注不同,模型可能会学习到错误的模式或完全无法学习。
评分者之间的可靠性有助于处理此类数据的团队评估专家判断的一致性。例如,在最近一项以视网膜 OCT 扫描为重点的研究中,两名评分员对 500 张图像进行了标注。
对于像色素沉着(视网膜下的黄色沉积物)这样清晰的特征,一致性很高,kappa 得分为 0.87。但对于像高反射灶(视网膜扫描中看到的小亮点)这样较难定义的元素,卡方得分则下降到 0.33。这表明,更清晰、更明确的特征往往能产生更一致的专家判断,而模棱两可的特征则留下了更多的解释空间。
为自动驾驶系统训练人工智能模型有赖于在各种路况下准确、一致的标注。参与此类项目的标注者通常需要识别行人、车辆、交通标志和车道标记,而且往往是在光线不足或拥挤的场景中。
这些决定决定了模型如何学会在严酷的现实环境中做出反应。评分者之间的可靠性使团队能够检查这些标签是否以相同的方式应用于不同的注释者。
虽然衡量评分者之间的可靠性是构建人工智能解决方案的关键步骤,但它只是更广泛的质量保证流程的一部分。以下是一些有助于提高团队和项目数据质量的其他做法:
评分者之间的可靠性衡量的是人们在使用标签或做出决定时的一致性。Cohen's Kappa、Fleiss' Kappa 和 ICC 等方法有助于量化这种一致性。有了明确的指导原则、培训和偏差控制,可靠的注释能带来更强的数据和更好的模型结果。
加入我们的社区,探索我们的GitHub 存储库,了解有关人工智能的更多信息。如果您想启动自己的视觉人工智能项目,请查看我们的 许可选项。您还可以访问我们的解决方案页面,了解人工智能在医疗保健和零售业中的应用。