深圳Yolo 视觉
深圳
立即加入
词汇表

数据标注

了解数据标注如何为机器学习创建基准数据。探索物体检测与分割技术,Ultralytics 提供强大支持。

数据标注是为原始数据(如图像、视频、文本或音频)添加描述性元数据或标签的关键过程,旨在使其可被机器学习(ML)模型理解。该实践确立了算法用于学习模式、识别对象及进行预测的"基准数据"。 在监督学习场景中, 高质量标注如同导师,指导模型理解特定输入应产出的预期结果。若缺乏精准的数据标注, Ultralytics 先进架构, 也无法准确detect 解析复杂场景—— 因为模型性能本质上与训练数据质量息息相关。

注释在人工智能开发中的作用

构建强大的AI系统需要将非结构化数据转化为结构化数据集。数据标注通过明确标记感兴趣特征来弥合这一差距。例如在计算机视觉(CV)领域,这可能涉及在汽车周围绘制边界框,或在医学扫描图像中勾勒肿瘤轮廓。

标注任务的复杂程度因目标应用而异:

  • 目标检测涉及 在物体周围绘制二维矩形,以教导模型识别物体 及其所在位置
  • 实例分割 需要在对象周围绘制像素级精确的多边形,以区分 各个实例及其精确形状。
  • 姿势估计 :专注于 标注特定关键点,例如人体关节, 用于分析动作或姿势。
  • 图像分类 为整张图像分配单一类别标签,例如将照片识别为"晴天"或"雨天"。

实际应用

数据标注通过使机器能够准确感知世界,推动了各行各业的创新发展。

  1. 自动驾驶汽车:自动驾驶汽车依赖于海量数据集,其中每个行人、交通信号灯和车道标线都经过标注。这些标注数据使感知系统能够安全导航。企业利用激光雷达点云标注与视频数据相结合,创建环境的三维地图。
  2. 医学影像: 在医疗人工智能领域,放射科医生通过标注X光片和MRI扫描图像来突出显示异常情况。这些标注数据集用于训练模型辅助早期诊断,例如检测肿瘤时,其一致性高于仅靠人工审查的结果。

注释 vs. 标注 vs. 数据增强

虽然数据标注与机器学习运维(MLOps)工作流中的相关概念常被混用,但区分它们仍具有重要意义。

  • 标注与数据标记 "标记"通常是更宽泛的术语,可指简单的分类操作(例如将邮件标记为垃圾邮件)。 "标注"则通常指更丰富、更精细的过程,例如在图像中标记特定空间区域,或在音频文件中标记时间片段。
  • 标注与数据增强 标注创建初始基准数据。增强则是后续步骤,通过对现有标注样本应用变换(如旋转、翻转或添加噪声)人工扩展数据集。这有助于防止过拟合并提升模型泛化能力。

工具和工作流程

现代数据标注鲜少是手动完成的孤立任务。它涉及协作平台,且日益依赖人工智能辅助工具。Ultralytics 通过提供集成的数据集管理与自动标注工具,简化了这一工作流程。利用预训练模型提出初始标签建议可显著加速流程,这种技术被称为主动学习

标注完成后,数据通常会以标准格式(如 JSON或 YOLO )导出用于训练。以下Python 代码片段 演示了在训练YOLOv2模型前如何验证标注数据集配置。

from ultralytics import YOLO

# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")

# Train the model using a dataset configuration file
# The YAML file defines paths to your annotated training and validation images
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

精准的数据标注是高性能人工智能的基础。通过投入优质标注资源,开发者能确保模型从清晰一致的示例中学习,从而在实际部署中实现可靠的预测。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入