探索数据标注在机器学习中的关键作用、流程、挑战以及在人工智能开发中的实际应用。
数据标注是对原始数据进行标记或注释的基本过程,目的是创建一个 适合训练 机器学习 (ML)模型。在 监督学习中,算法需要 例子,其中包括输入数据(如图像)和预期输出(标签)。这些标签 信息可作为基本事实,作为 明确的标准,据此来衡量和改进模型的预测。如果没有高质量的标注、 即使是最复杂的架构,如 Ultralytics YOLO11也无法学会准确识别 模式或识别物体。
任何人工智能系统的性能都与其训练数据的质量密不可分。 训练数据的质量密不可分。如果标签不一致、 不精确或不正确,模型将学习到错误的关联--这个问题在计算机科学中被广泛称为 "垃圾进,垃圾出"。 "垃圾进,垃圾出"。精确的标签能让模型很好地泛化到新的、未见过的数据中,这对部署稳健的模型至关重要。 这对于部署强大的 计算机视觉 (CV)应用的关键。主要的 基准数据集,如 COCO 数据集和 ImageNet之所以成为行业标准 正是因为它们进行了广泛而细致的标注。
数据标注的具体方法在很大程度上取决于预期的计算机视觉任务:
数据标签使人工智能能够在复杂的现实世界环境中发挥作用。两个突出的例子包括
将标签与数据准备管道中使用的类似术语区分开来很有帮助:
虽然人工标注耗时,但现代工作流程通常会使用专门的软件,如 CVAT(计算机视觉标注工具)等专业软件,或利用 主动学习来加快这一过程。即将推出的 即将推出的Ultralytics 平台旨在简化整个 生命周期。
下面的Python 代码段演示了如何使用预标注数据集训练YOLO11 模型
(coco8.yaml).训练过程完全依赖于数据集配置文件中定义的准确标签。
数据集配置文件中定义的准确标签。
from ultralytics import YOLO
# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)
# The model updates its weights based on the labeled data provided

