Data Labeling
了解机器学习数据标注的基础知识。发现目标检测等关键类型,以及如何使用 Ultralytics YOLO26 加速工作流程。
数据标注是识别原始数据(如图像、视频帧、文本或音频)并添加信息标签或元数据以提供上下文的基础流程。在机器学习 (ML) 领域,算法无法天生理解物理世界;它们需要一位“老师”来引导。这种指导以监督学习过程中使用的标注数据集形式出现。这些标签充当真值,代表了模型力求预测的正确答案。无论是训练一个简单的分类器,还是像 Ultralytics YOLO26 这样复杂的架构,这些标签的准确性、一致性和质量都是决定模型成功与否的首要因素。
Link to this section数据标注与数据注释#
虽然这两个术语在日常交流中经常互换使用,但其中存在一个值得注意的细微差别。“数据标注”(Data labeling)通常指为数据分配类别或标签的广泛行为(例如,将电子邮件标记为“垃圾邮件”)。相比之下,数据注释通常更特定于计算机视觉 (CV),涉及使用边界框、多边形或关键点对对象进行精确描绘。然而,在大多数 ML 操作 (MLOps) 工作流中,这两个术语都描述了高质量训练数据的创建过程。
Link to this section计算机视觉中的关键类型#
标注方法会根据模型必须执行的任务而变化。常见类型包括:
- 图像分类: 为整张图像分配单个标签,例如将天气状况识别为“多云”或“晴天”。
- 目标检测: 在不同对象周围绘制 2D 边界框,以教会模型对象是什么以及它位于何处。
- 实例分割: 在对象周围创建像素完美的遮罩或多边形,这对于确定精确形状和边界至关重要。
- 姿态估计: 在主体上标记特定的关键点,例如骨骼关节,以分析动作或姿势。
Link to this section实际应用#
数据标注的效用几乎扩展到每一个采用 AI 的行业。
-
自动驾驶汽车: 自动驾驶汽车依赖于海量数据集,其中每一辆车、每一位行人、交通标志和车道标记都被精心标注。这些标注数据使感知系统能够安全地在复杂环境中导航。自动驾驶汽车公司在像素级标注上投入巨资,以确保符合安全合规要求。
-
精准农业: 在现代农业中,农业 AI 用于检测农作物疾病或监测生长阶段。农民使用在“健康”与“患病”叶片的标注图像上训练的模型来自动化处理流程,从而减少化学药品的使用并提高产量。
Link to this section标注工作流#
创建一个标注数据集通常是 AI 项目中最耗时的部分。该流程通常涉及“人在回路”(HITL)方法,即人工注释员验证标签以确保高准确性。现代工作流利用 Ultralytics Platform 等工具,这简化了数据集管理并允许团队协作进行注释。也可以采用主动学习等先进技术,即由模型预先标注数据,人类仅修正低置信度的预测,从而显著加快流程。
以下示例演示了如何使用预训练的 YOLO26 模型自动为新图像生成标签(自动标注),然后可由人工进行修正:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")





