了解机器学习数据标注的基础知识。发现目标检测等关键类型,以及如何使用 Ultralytics YOLO26 加速工作流程。
数据标注是识别原始数据(如图像、视频帧、文本或音频)并添加信息标签或元数据以提供上下文的基本过程。在 机器学习 (ML) 领域,算法无法固有地理解物理世界;它们需要一个“老师”来指导。这种指导以在 监督学习 期间使用的标注数据集的形式出现。这些标签作为 真值,代表模型力求预测的正确答案。无论是训练简单的分类器还是像 Ultralytics YOLO26 这样的复杂架构,这些标签的准确性、一致性和质量是模型成功的首要决定因素。
虽然这些术语在日常对话中常被互换使用,但仍有一个值得注意的细微区别。“数据标注”(Data labeling)通常指为数据分配类别或标签的广泛行为(例如,将电子邮件标记为“垃圾邮件”)。相比之下,数据注释(data annotation)通常更具体于计算机视觉 (CV)领域,涉及使用边界框、多边形或关键点精确地描绘对象。然而,在大多数机器学习运维 (MLOps)工作流中,这两个术语都描述了高质量训练数据的创建。
标注方法根据模型必须执行的任务而变化。常见类型包括:
数据标注的实用性几乎涵盖所有采用 AI 的行业。
创建标注数据集通常是AI项目中最耗时的部分。该过程通常涉及“人在回路”(HITL) 方法,即人工标注员验证标签以确保高准确性。现代工作流程利用 Ultralytics Platform 等工具,简化了数据集管理,并允许团队协作进行注释。还可以采用 主动学习 等高级技术,其中模型预先标注数据,而人类只纠正低置信度的预测,从而显著加快了流程。
以下示例演示了如何使用预训练的YOLO26模型为新图像自动生成标签(自动标注),然后可以由人工进行纠正:
from ultralytics import YOLO
# Load the YOLO26n model (nano version)
model = YOLO("yolo26n.pt")
# Run inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")
# Save the detection results to a text file in standard YOLO format
# This file can now be used as a starting point for data labeling
results[0].save_txt("bus_labels.txt")

开启您的机器学习未来之旅