深圳Yolo 视觉
深圳
立即加入
词汇表

数据标注

探索数据标注在机器学习中的关键作用、流程、挑战以及在人工智能开发中的实际应用。

数据标注是对原始数据进行标记或注释的基本过程,目的是创建一个 适合训练 机器学习 (ML)模型。在 监督学习中,算法需要 例子,其中包括输入数据(如图像)和预期输出(标签)。这些标签 信息可作为基本事实,作为 明确的标准,据此来衡量和改进模型的预测。如果没有高质量的标注、 即使是最复杂的架构,如 Ultralytics YOLO11也无法学会准确识别 模式或识别物体。

准确标签的重要性

任何人工智能系统的性能都与其训练数据的质量密不可分。 训练数据的质量密不可分。如果标签不一致、 不精确或不正确,模型将学习到错误的关联--这个问题在计算机科学中被广泛称为 "垃圾进,垃圾出"。 "垃圾进,垃圾出"。精确的标签能让模型很好地泛化到新的、未见过的数据中,这对部署稳健的模型至关重要。 这对于部署强大的 计算机视觉 (CV)应用的关键。主要的 基准数据集,如 COCO 数据集ImageNet之所以成为行业标准 正是因为它们进行了广泛而细致的标注。

计算机视觉中的常见标签类型

数据标注的具体方法在很大程度上取决于预期的计算机视觉任务:

  • 图像分类 为整张图像指定单一类别或类别标签(例如,将照片标记为 "晴天 "或 "雨天")。 "雨天")。
  • 物体检测绘制二维 边界框,并 为每个方框指定一个类别。这样,模型就知道了物体是什么以及它的位置。
  • 图像分割创建 像素完美遮罩。 语义分割按 类别(如所有 "道路 "像素)标记区域,而 实例分割则区分 同一类别的单个对象(如 "汽车 1"、"汽车 2")。
  • 姿势估计注释 标注主体上的特定关键点,例如人体的关节(骨骼追踪)。 骨骼追踪),以了解运动和姿势。

实际应用

数据标签使人工智能能够在复杂的现实世界环境中发挥作用。两个突出的例子包括

  1. 自动驾驶汽车自动驾驶汽车 自动驾驶汽车要想安全导航,就必须依靠训练数据,在这些数据中,人类精心标注了车道线、交通标志、行人和其他车辆、 交通标志、行人和其他车辆。这样,汽车的感知系统就能即时解读道路的 几何形状和潜在危险。您可以在我们的 汽车中的人工智能解决方案。
  2. 医学图像分析 在医疗保健领域,放射科医生通过标记医学扫描图像来识别异常。例如,在一个 脑肿瘤数据集上,专家可能会勾勒出 病变的确切边界。这些标注数据可训练模型,帮助医生进行早期诊断,改善患者的治疗效果。 患者的治疗效果。阅读更多关于 人工智能在医疗保健领域的应用,了解这些模型的实际应用。

数据标注与相关概念

将标签与数据准备管道中使用的类似术语区分开来很有帮助:

  • Vs.数据注释这些术语 经常被互换使用。不过,"标注 "有时用于较简单的任务,如 分类(标记),而 "注释 "则意味着更丰富的元数据,如绘制多边形或标注关键点。 关键点。
  • Vs.数据扩充 标签创建初始数据集。扩增发生在之后,软件通过数学方法改变标注的图像(旋转、翻转、添加噪音 标注的图像(旋转、翻转、添加噪音),人为地增加数据集的多样性,而无需人工 人工操作。
  • Vs.数据清理这包括 修复数据集中的错误,如删除损坏的文件或纠正错误标记的项目。清理可确保 注释者提供的标签的完整性。

工具和代码示例

虽然人工标注耗时,但现代工作流程通常会使用专门的软件,如 CVAT(计算机视觉标注工具)等专业软件,或利用 主动学习来加快这一过程。即将推出的 即将推出的Ultralytics 平台旨在简化整个 生命周期。

下面的Python 代码段演示了如何使用预标注数据集训练YOLO11 模型 (coco8.yaml).训练过程完全依赖于数据集配置文件中定义的准确标签。 数据集配置文件中定义的准确标签。

from ultralytics import YOLO

# Load the YOLO11 model (nano version)
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
# The dataset YAML file contains paths to images and their corresponding labels
results = model.train(data="coco8.yaml", epochs=5, imgsz=640)

# The model updates its weights based on the labeled data provided

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入