深圳Yolo 视觉
深圳
立即加入
词汇表

数据标注

什么是数据标注?了解如何使用边界框或多边形标记数据对于训练准确的 AI 和计算机视觉模型至关重要。

数据标注是通过标记、标注或转录原始数据来提供机器学习(ML)模型所需学习背景的关键过程。这一步骤是监督学习的基础,该方法通过输入输出对训练算法以识别模式并进行预测。 标注信息作为基准参考,代表模型力求复现的理想结果。若缺乏精准一致的标注,Ultralytics 先进架构也难以有效运作——系统准确性直接取决于训练数据的质量。

计算机视觉中的常见标注类型

计算机视觉(CV)领域,数据标注涉及对图像或视频帧中的特定特征进行标记。所采用的方法很大程度上取决于所构建模型需要执行的具体任务。

  • 目标检测标注人员 在感兴趣目标(如车辆或行人)周围绘制二维边界框, 以此教导模型识别目标物体及其在场景中的具体位置。
  • 实例分割 该技术通过在物体边缘精确勾勒多边形轮廓实现。与简单边界框不同,分割技术能精准映射物体的实际形状与轮廓,这对机器人抓取等高精度任务至关重要。
  • 姿势估计 标注员在主体上标记特定关键点,例如人体关节(肘部、膝盖、肩膀)。这使模型能够track 、姿势,甚至分析运动表现。
  • 图像分类这是最简单的形式,其中单一类别标签(例如"健康叶片"与"病叶")被分配给整张图像。

实际应用

数据标注在各行各业中,架起了原始传感器数据与智能决策之间的桥梁。

  1. 智能农业: 农业人工智能领域,通过标注海量作物图像数据集 来识别杂草、病虫害或营养缺乏问题。利用这些数据训练模型后, 农民可实现作物监测自动化,仅在必要区域实施处理措施,从而减少浪费并提高产量。
  2. 自动驾驶:自动驾驶汽车依赖于庞大的标注数据集,其中每条车道标线、交通标志和障碍物都经过标注。通过处理摄像头和激光雷达传感器采集的数据,训练车辆的感知系统,确保其能够安全应对复杂的交通场景。

区分相关概念

区分数据标注与数据集准备流程中常用的其他术语是有帮助的。

  • 标注与数据标记 虽然两者常被互换使用,但"标记"通常指更简单的分类任务(分配标签),而"标注"则意味着生成更丰富的元数据,例如绘制复杂几何图形或在视频中标记时间戳。
  • 标注与数据增强 标注创建初始基准数据。增强则是后续过程,通过对现有标注图像施加变换(如旋转或色彩偏移)来人工扩展数据集,从而提升模型鲁棒性。
  • 标注与主动学习 主动学习是一种策略,模型会识别出哪些具体数据点最令其困惑, 仅针对这些示例请求人工标注,从而优化标注过程的时间和成本。

工具和工作流程

创建高质量标注通常需要专用软件,这些软件能将数据导出为JSON或XML等标准格式。现代工作流程正日益Ultralytics 这类集成环境,该平台通过统一界面简化了数据采集、自动标注和模型训练流程。

数据标注完成后,将在配置文件(通常为YAML格式)中进行引用以供训练。以下示例演示了如何使用COCO8 训练YOLO26模型,该数据集已包含预先存在的标注信息。

from ultralytics import YOLO

# Load the latest YOLO26 model (nano version)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The YAML file points to the annotated images and labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入