深圳Yolo 视觉
深圳
立即加入
词汇表

数据标注

了解数据标注如何为机器学习创建真值。探索目标 detect 和 segment 技术,以赋能 Ultralytics YOLO26。

数据标注是将描述性元数据或标签添加到原始数据(如图像、视频、文本或音频)的关键过程,以使其可被 机器学习 (ML) 模型理解。这种做法建立了算法用于学习模式、识别对象和进行预测的“基本事实”。在 监督学习 的背景下,高质量的标注充当“教师”,指导模型在给定输入下预期何种输出。如果没有精确的数据标注,即使是像 Ultralytics YOLO26 这样的先进架构也无法准确 detect 物体或解释复杂场景,因为模型的性能与其 训练数据 的质量内在相关。

标注在 AI 开发中的作用

构建强大的 AI 系统需要将非结构化数据转换为结构化数据集。数据标注通过明确标记感兴趣的特征来弥合这一差距。例如,在 计算机视觉 (CV) 中,这可能涉及在汽车周围绘制 边界框,或在医学扫描中描绘肿瘤的轮廓。

标注任务的复杂性因预期应用而异:

  • 目标检测: 涉及围绕对象绘制2D矩形,以教会模型对象是什么以及它位于何处
  • Instance Segmentation: 需要在对象周围绘制像素级的多边形,以区分单个实例及其精确形状。
  • 姿势估计: 侧重于标记特定的关键点,例如人体上的关节,以分析运动或姿势。
  • Image Classification: 为整个图像分配一个单一的类别标签,例如将照片识别为“晴天”或“雨天”。

实际应用

数据标注通过使机器能够准确感知世界,推动了各行各业的创新。

  1. 自动驾驶车辆:自动驾驶汽车依赖于庞大的数据集,其中每个行人、交通灯和车道标记都经过标注。这些标注数据使感知系统能够安全导航。公司将 LiDAR 点云标注与视频数据结合使用,以创建环境的3D地图。
  2. 医学影像:医疗AI中,放射科医生对X射线和MRI扫描进行标注以突出异常。这些标注数据集训练模型以辅助早期诊断,例如以比单独人工审查更高的一致性检测肿瘤

标注 vs. 标记 vs. 数据增强

虽然数据标注和相关概念在 ML运维 (MLOps) 工作流程中经常互换使用,但区分它们会有所帮助。

  • 标注与数据标记“标记”通常是一个更广泛的术语,可以指简单的分类(例如,将电子邮件标记为垃圾邮件)。“标注”通常意味着一个更丰富、更细粒度的过程,例如在图像中标记特定的空间区域或在音频文件中标记时间段。
  • 标注与数据增强标注创建了初始的真值。数据增强是后续步骤,通过对现有已标注样本应用旋转、翻转或添加噪声等变换来人为地扩充数据集。这有助于防止过拟合并提高模型的泛化能力。

工具和工作流程

现代数据标注已不再是单一的手动任务。它涉及协作平台,并且越来越多地采用AI辅助工具。Ultralytics Platform通过提供数据集管理和自动标注的集成工具,简化了这一工作流。使用预训练模型来建议初始标签可以显著加快标注过程,这种技术被称为主动学习

数据标注完成后,通常会以JSONYOLO TXT格式等标准格式导出用于训练。以下python代码片段演示了如何在训练YOLO26模型之前验证已标注数据集的配置。

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The YAML file defines paths to your annotated training and validation images
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

精确的数据标注是高性能 AI 的基础。通过投入高质量的标注,开发者可以确保他们的模型从清晰、一致的示例中学习,从而在实际部署中获得可靠的预测。

让我们一起共建AI的未来!

开启您的机器学习未来之旅