深圳Yolo 视觉
深圳
立即加入
词汇表

数据标注

了解机器学习数据标注的基础知识。发现目标检测等关键类型,以及如何使用 Ultralytics YOLO26 加速工作流程。

数据标注是识别原始数据(如图像、视频帧、文本或音频)并添加信息标签或元数据以提供上下文的基本过程。在 机器学习 (ML) 领域,算法无法固有地理解物理世界;它们需要一个“老师”来指导。这种指导以在 监督学习 期间使用的标注数据集的形式出现。这些标签作为 真值,代表模型力求预测的正确答案。无论是训练简单的分类器还是像 Ultralytics YOLO26 这样的复杂架构,这些标签的准确性、一致性和质量是模型成功的首要决定因素。

数据标注 vs. 数据注释

虽然这些术语在日常对话中常被互换使用,但仍有一个值得注意的细微区别。“数据标注”(Data labeling)通常指为数据分配类别或标签的广泛行为(例如,将电子邮件标记为“垃圾邮件”)。相比之下,数据注释(data annotation)通常更具体于计算机视觉 (CV)领域,涉及使用边界框、多边形或关键点精确地描绘对象。然而,在大多数机器学习运维 (MLOps)工作流中,这两个术语都描述了高质量训练数据的创建。

计算机视觉中的主要类型

标注方法根据模型必须执行的任务而变化。常见类型包括:

  • 图像分类: 为整张图像分配一个单一标签,例如将天气状况识别为“多云”或“晴朗”。
  • 目标检测: 在不同对象周围绘制2D边界框,以教会模型对象是什么以及它位于何处。
  • 实例分割: 在对象周围创建像素级的掩码或多边形,这对于确定精确的形状和边界至关重要。
  • 姿势估计: 标记主体上的特定关键点,例如骨骼关节,以分析运动或姿势。

实际应用

数据标注的实用性几乎涵盖所有采用 AI 的行业。

  1. 自动驾驶车辆:自动驾驶汽车依赖于庞大的数据集,其中每个车辆、行人、交通标志和车道标记都经过精心标注。这些标注数据使感知系统能够安全地导航复杂环境。自动驾驶车辆 公司在像素级标注上投入巨资,以确保安全合规。
  2. 精准农业:在现代农业中,农业AI用于detect作物病害或监测生长阶段。农民使用在“健康”与“患病”叶片标注图像上训练的模型来自动化处理,从而减少化学品使用并提高产量。

标注工作流

创建标注数据集通常是AI项目中最耗时的部分。该过程通常涉及“人在回路”(HITL) 方法,即人工标注员验证标签以确保高准确性。现代工作流程利用 Ultralytics Platform 等工具,简化了数据集管理,并允许团队协作进行注释。还可以采用 主动学习 等高级技术,其中模型预先标注数据,而人类只纠正低置信度的预测,从而显著加快了流程。

以下示例演示了如何使用预训练的YOLO26模型为新图像自动生成标签(自动标注),然后可以由人工进行纠正:

from ultralytics import YOLO

# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")

# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

让我们一起共建AI的未来!

开启您的机器学习未来之旅