理解为什么人在回路 (human-in-the-loop) 标注是关键
看看人工标注的数据如何提高计算机视觉模型的准确性,以及为什么人类专业知识对于可靠的视觉 AI 系统仍然至关重要。

二十年前,如果有人说想找个机器人帮忙做家务,听起来会非常遥远。然而,我们正处于人工智能热潮之中,机器人正被测试应用于类似的场景。
推动这一进展的关键人工智能领域是 计算机视觉,它赋予了机器理解图像和视频的能力。换句话说,像 Ultralytics YOLO11 和即将推出的 Ultralytics YOLO26 这样的计算机视觉模型,可以通过包含视觉数据和标注的数据集进行训练。
这些标注帮助模型理解视觉数据。例如,目标检测数据集使用 bbox 在感兴趣的对象周围绘制矩形。这使得模型即使在场景杂乱或对象被部分遮挡的情况下,也能在新的图像中检测并定位这些对象。
其他计算机视觉任务依赖于不同类型的标注。分割数据集在像素级别标注对象的精确轮廓,而关键点数据集则标记特定的地标,例如人的关节。
然而,在所有这些格式中,一个关键因素是标签的质量和一致性。模型直接从训练数据中学习,因此如果标签不一致或错误,模型通常会将这些错误带入其预测中。
即使有了自动化,人工标注的数据集仍然至关重要,特别是在 医学影像 等高风险领域。微小的标注错误,例如不精确的肿瘤边界或遗漏的异常情况,可能会教会模型错误的模式,并导致日后不安全的预测。人类专家能提供这些应用所需的准确真值和判断。

图 1. 对人工标注数据集的需求。图片由作者提供。
在本文中,我们将深入探讨为什么即使人工智能不断进步,人工标注数据仍然不可或缺。
Link to this section对图像和视频标注的需求#
计算机视觉模型的学习方式与我们很像,都是通过观察大量的例子。不同之处在于,它们是通过训练人类预先标注好的大型 图像数据集 和视频来学习的。这些标签作为真值,教会模型诸如“这是一个行人”、“这是肿瘤的边界”或“那个对象是一辆车”之类的知识。
现实世界的视觉效果很少是干净或一致的。光线可能会发生变化,导致同一个对象看起来不同。人和车辆可能会重叠或被部分遮挡。背景可能非常繁忙且令人分心。当数据集在这些情况下包含仔细、一致的标签时,模型就能更好地应对在受控环境之外面临的情况。
数据标注 也不仅仅是画框或描绘轮廓。它涉及到应用准则并做出实际判断,例如什么是目标对象、边界应该在哪里,以及当某些东西不清楚时该怎么做。这种人类的判断力保持了数据的准确性和可用性。
归根结底,计算机视觉系统的性能取决于它所学习的标注数据的好坏。在诸如从扫描图像中识别癌症或为自动驾驶汽车检测道路危险等高影响力应用中,来自技术熟练人员的精确标签在准确性和安全性方面发挥了真正的作用。
Link to this section数据标注中自动化的兴起#
随着计算机视觉的扩展和数据集的增长,自动化正成为加速标注的常用方式。团队不再一切都手工标注,而是使用人工智能模型进行初步标注。
然后由人类审查结果,修正错误,并处理模型无法自信标注的情况。这种方法加快了标注速度,同时保持了高质量。
以下是自动化通常辅助数据标注的几种方式:
- 自动分割: 模型可以自动建议对象轮廓或像素级掩码,这减少了标注员需要进行的繁重手动描边工作。
- 光流追踪: 在处理视频时,追踪方法可以跨帧跟随移动对象并传递其标签,有助于保持标注在时间上的一致性。
- 帧插值: 工具可以使用运动和追踪线索填充两个已标注帧之间的帧标签,这样标注员就不必标注每一帧。
- 主动学习: 训练流水线可以识别模型认为不确定或异常的例子,并优先将其发送给人类,这样手动工作就可以集中在最能提升性能的数据上。
Link to this section为什么人工数据标注仍然如此关键#
虽然自动化可以加快标注速度,但人工智能模型仍然需要人类的判断才能保持准确和可靠。
以下是人类专业知识在数据标注中产生影响的几个关键领域:
- 理解上下文: 真实的图像和视频通常很混乱。阴影、反射、运动模糊和重叠的对象可能会混淆自动化工具。人工标注员可以解读实际发生了什么,因此标签更加准确。
- 保持标签一致: 随着数据集的增长,自动化标签可能会出现漂移或在不同批次间产生差异。人类可以审核、修正并对齐标签,从而使数据集从头到尾保持一致。
- 减少偏见和伤害: 人类更擅长发现敏感内容、文化细微差别以及可能引入偏见的模式。他们的监督有助于使数据集更加公平,并避免意外伤害。
- 应用主题专业知识: 某些任务需要领域知识,例如识别医疗异常或工业缺陷。专家可以提供精确的标签并解决歧义情况,以便模型学习正确的细节。
Link to this section人机协同标注概述#
像 Roboflow 这样的标注工具和平台集成了自动化以加速标注,通常使用基础模型,例如 Segment Anything Model 3 或 SAM3。SAM3 是 Meta AI 的可提示分割基础模型。
它可以通过简单的提示(如点击、bbox 或简短的文本短语)检测、分割和追踪图像和视频中的对象,为匹配的对象生成分割掩码,而无需为每个新类别进行特定任务的训练。
即使有了这些尖端方法,仍然需要人类专家来审查和完成最终标注。当自动化工具生成初稿,而人类进行验证、修正和优化时,这种工作流程被称为人机协同标注。这既保持了标注的快速性,又确保了最终标签足够准确和一致,从而能用于训练可靠的模型。

图 2. 人机协同标注一览。(来源)
Link to this section标注自动化何时有效,何时无效#
自动化标注最适用于来自受控环境的数据。在工厂、仓库或零售过道收集的图像通常具有稳定的光照和清晰的对象视图,因此自动化工具可以准确地标注它们,并帮助团队以较少的手动工作更快地扩展。
来自非受控环境的数据则更为复杂。室外镜头会随一天中的时间和天气而变化,来自街道或家庭的场景通常包含杂物、运动模糊、对象遮挡和大量重叠。小对象、精细的边界或罕见情况增加了更多的错误空间。在干净的室内数据上表现良好的模型在混乱的现实视觉场景中可能仍然会遇到困难。
这就是为什么人类输入仍然很重要的原因。当模型不确定时,人们可以介入,解读复杂的上下文,并在错误进入最终数据集之前对其进行修正。人机协同标注有助于确保自动化在现实条件下保持稳健,并在部署后保持模型的可靠性。
Link to this section人机协同标注可以在哪些方面发挥作用?#
现在我们已经了解了自动化在哪些地方运行良好,在哪些地方不足,让我们探索一些人机协同标注发挥重要作用的应用场景。
Link to this section制造业中的缺陷检测#
考虑一条工厂传送带,每分钟有数百个零件在摄像机下通过。大多数缺陷是明显的,但有时会出现以奇怪角度或在灯光眩光下产生的发际裂纹。自动化系统可能会漏掉它或将其标记为无害的表面纹理,但人工审查员可以发现瑕疵、修正标注,并确保模型学会区分差异。
这就是人机协同标注在工业检测中的角色。自动化可以预先标注常见缺陷类型并快速处理大量图像,但人类仍然需要验证结果、收紧边界并处理训练中不经常出现的罕见故障。
Link to this section自动驾驶汽车与智慧交通#
同样,自动驾驶汽车使用计算机视觉来识别行人、读取标志和导航交通,但真实的道路是不可预测的。例如,晚上从停放的汽车后面走出来的行人可能会部分被遮挡,且在眩光下难以看清。

图 3. 使用计算机视觉分析交通的示例。(来源)
人工标注员可以在训练期间标注这些罕见且涉及安全的极端情况,这样模型就能学会正确的响应,不仅是在正常条件下,而且是在最关键的时刻。这种人机协同步骤对于教会系统处理仅靠自动化难以捕捉的低频事件至关重要。
Link to this section人工标注数据集的未来之路#
随着技术进步,人机协同标注正变得越来越具有协作性。有趣的是,视觉语言模型 (VLM) 同时从图像和文本中学习,现在正被用于创建初稿标签并根据简单的提示建议修正方案。
因此,标注员无需手动扫描每张图像来决定标注什么,而是可以向 VLM 发送类似“标注所有行人、汽车和交通灯”或“分割该部件上的所有缺陷”的短语,并获得一组可供审查的草稿标注。

图 4. 大型多模态模型可以与人工标注员合作 (来源)
这减少了标注时间,因为模型可以预先处理许多简单的案例,这样人类就可以专注于审查结果、修正棘手的示例并保持数据集的一致性。大型多模态模型也开始引导标注员关注最不确定的样本,使人力投入更有针对性,并提升整体数据集的质量。
Link to this section关键要点#
计算机视觉帮助机器解读和响应它们所看到的一切,但它在有人类专家参与时效果最好。人工标注的数据使模型在现实条件下保持稳健,并提高了它们执行任务的可靠性。通过自动化和人类判断力并肩工作,团队可以构建出具有影响力视觉系统。
加入我们活跃的 社区,探索诸如 物流中的人工智能 和 机器人中的视觉人工智能 等创新。访问我们的 GitHub 仓库 以了解更多。如需从今天开始学习计算机视觉,请查看我们的 许可选项。






