什么是数据标注?了解如何使用边界框或多边形标记数据对于训练准确的 AI 和计算机视觉模型至关重要。
数据标注是通过标记、标注或转录原始数据来提供机器学习(ML)模型所需学习背景的关键过程。这一步骤是监督学习的基础,该方法通过输入输出对训练算法以识别模式并进行预测。 标注信息作为基准参考,代表模型力求复现的理想结果。若缺乏精准一致的标注,Ultralytics 先进架构也难以有效运作——系统准确性直接取决于训练数据的质量。
在计算机视觉(CV)领域,数据标注涉及对图像或视频帧中的特定特征进行标记。所采用的方法很大程度上取决于所构建模型需要执行的具体任务。
数据标注在各行各业中,架起了原始传感器数据与智能决策之间的桥梁。
区分数据标注与数据集准备流程中常用的其他术语是有帮助的。
创建高质量标注通常需要专用软件,这些软件能将数据导出为JSON或XML等标准格式。现代工作流程正日益Ultralytics 这类集成环境,该平台通过统一界面简化了数据采集、自动标注和模型训练流程。
数据标注完成后,将在配置文件(通常为YAML格式)中进行引用以供训练。以下示例演示了如何使用COCO8 训练YOLO26模型,该数据集已包含预先存在的标注信息。
from ultralytics import YOLO
# Load the latest YOLO26 model (nano version)
model = YOLO("yolo26n.pt")
# Train the model using a dataset configuration file
# The YAML file points to the annotated images and labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
.webp)
