遇见 YOLO26: 下一代视觉 AI。
Ultralytics
Ultralytics YOLO

探索计算机视觉项目的数据标注

阅读我们关于计算机视觉项目数据标注的全面深度解析,学习如何标注视觉数据并了解其重要性。

ABAbirami Vina
4 min read
计算机视觉项目的数据标注

人工智能 (AI) 专注于赋予机器类似人类的能力,而实现这一目标最流行的方法之一是通过监督学习。换句话说,通过向 AI 模型展示标注过的示例来对其进行教学,可以帮助它们从模式中学习并提升任务表现。这与人类从经验中学习的方式非常相似。那么,这些标注好的示例是如何创建的呢?

数据标注涉及对数据进行标记或打标签,以帮助机器学习算法理解数据。在计算机视觉中,这意味着标记图像或视频,以便准确地识别和分类对象、动作或场景。数据标注至关重要,因为 AI 模型的成功在很大程度上依赖于其所训练数据的标注质量。

研究表明,超过 80% 的 AI 项目时间都花在数据管理上,从收集和聚合到清洗和标注。这显示了数据标注在 AI 模型开发中的重要性。使用高质量的标注数据,使 AI 模型能够在现实场景中以更高的准确性和可靠性执行诸如人脸识别目标检测等任务。

Link to this section为什么数据标注是必要的#

数据标注构成了计算机视觉模型性能表现的基础。标注数据是模型用来学习和进行预测的真值 (ground truth)。真值数据之所以关键,是因为它代表了模型试图理解的现实世界。如果没有这种可靠的基准,AI 模型就像一艘没有罗盘的船在航行。

Ground truth 与预测的对比

图 1. 真值与预测。

准确的标注有助于这些模型理解它们所看到的内容,并带来更好的决策能力。如果数据标注得很差或不一致,模型将难以做出正确的预测和决定,就像学生学习了错误的教科书一样。得益于标注数据,模型可以学习诸如图像中的图像分类实例分割姿态估计等任务。

Link to this section最佳数据集资源#

在创建全新的数据集并一丝不苟地标注图像和视频之前,最好先看看是否可以将现有数据集用于你的项目。有几个非常棒的开源存储库,你可以免费访问高质量的数据集。其中一些最受欢迎的包括:

  • ImageNet:它常用于训练图像分类模型。
  • COCO:此数据集专为目标检测、分割和图像标注而设计。
  • PASCAL VOC:它支持目标检测和分割任务。

COCO 数据集中的数据示例

图 2. COCO 数据集中的数据示例。

选择数据集时,重要的是考虑诸如它与你项目的契合度、数据集规模、多样性以及标注质量等因素。此外,请务必查看数据集的许可条款以避免任何法律后果,并检查数据的格式是否符合你的工作流程和工具。

如果现有数据集不太适合你的需求,创建一个自定义数据集是一个不错的选择。你可以根据项目需要,使用网络摄像头、无人机或智能手机等工具收集图像。理想情况下,你的自定义数据集应该是多样化的、平衡的,并且真正能够代表你试图解决的问题。这意味着可能需要在不同的光照条件、从不同的角度以及在多个环境中捕捉图像。

如果你只能收集到少量的图像或视频,数据增强是一种有用的技术。它通过对现有图像应用旋转、翻转或颜色调整等变换来扩展你的数据集。这不仅增加了数据集的规模,还使你的模型更稳健,更能处理数据中的变化。通过混合使用开源数据集、自定义数据集和增强数据,你可以显著提升计算机视觉模型的性能。

Link to this section图像标注技术的类型#

在开始标注图像之前,熟悉不同类型的标注非常重要。这将帮助你为项目选择最合适的一种。接下来,我们将了解几种主要的标注类型。

Link to this sectionBBox#

边界框是计算机视觉中最常见的标注类型。它们是用于标记图像中物体位置的矩形框。这些框由其角点的坐标定义,并帮助 AI 模型识别和定位物体。边界框主要用于目标检测

边界框示例

图 3. 边界框示例。

Link to this section分割掩码#

有时,检测物体需要比仅在物体周围画一个边界框更精确。你可能对图像中物体的边界感兴趣。在这种情况下,分割掩码让你能够勾勒出复杂的物体。分割掩码是一种更详细的像素级表示。

这些掩码可用于语义分割实例分割。语义分割涉及根据物体或区域所代表的内容(如行人、汽车、道路或人行道)对图像中的每个像素进行标注。然而,实例分割更进一步,它识别并单独分离每个对象,比如区分图像中的每一辆车,即使它们是同一种类型。

语义分割(左)和实例分割(右)示例

图 4. 语义分割(左)和实例分割掩码(右)示例。

Link to this section3D 长方体#

3D 长方体类似于边界框,其独特之处在于它们增加了深度信息,并提供了物体的 3D 表示。这些额外的信息使系统能够理解物体在 3D 空间中的形状、体积和位置。3D 长方体常用于自动驾驶汽车,以测量物体与车辆的距离

3D 长方体示例

图 5. 3D 长方体示例。

Link to this section关键点和地标#

另一种有趣的标注类型是关键点,其中诸如眼睛、鼻子或关节等特定点被标记在物体上。地标通过连接这些点来捕捉更复杂形状(如人脸或身体姿态)的结构和运动,从而更进一步。这些类型的标注用于人脸识别、动作捕捉和增强现实等应用。它们还提高了 AI 模型在手势识别或分析运动表现等任务中的准确性。

关键点示例

图 6。关键点示例。

Link to this section如何使用 LabelImg 进行数据标注#

现在我们已经讨论了不同类型的标注,让我们了解如何使用流行的工具 LabelImg 来标注图像。LabelImg 是一款开源工具,它使图像标注变得简单,并可用于创建 YOLO (You Only Look Once) 格式的数据集。对于从事小型 Ultralytics YOLOv8 项目的初学者来说,这是一个极好的选择。

设置 LabelImg 非常简单。首先,确保你的计算机上安装了 Python 3。然后,你可以通过快速命令安装 LabelImg:

pip3 install labelImg

一旦安装完成,你可以使用该命令启动工具:

labelImg

LabelImg 支持多个平台,包括 Windows、macOS 和 Linux。如果你在安装过程中遇到任何问题,官方的 LabelImg 存储库可以为你提供更详细的说明。

使用 LabelImg 进行图像标注

图 7. 使用 LabelImg 进行图像标注。

启动工具后,按照以下简单步骤开始标注你的图像:

  • 设置你的类别: 首先在名为“predefined_classes.txt”的文件中定义你想要标注的类别列表。此文件让软件知道你将在图像中标记什么物体。
  • 切换到 YOLO 格式: 默认情况下,LabelImg 使用 PASCAL VOC 格式,但如果你在使用 YOLO,则需要切换格式。只需点击工具栏上的“PascalVOC”按钮即可切换到 YOLO。
  • 开始标注: 使用“Open”或“OpenDIR”选项加载你的图像。然后,在想要标注的物体周围画出边界框,并分配正确的类别标签。标注完每张图像后,保存你的工作。LabelImg 将创建一个与你的图像同名的文本文件,其中包含 YOLO 标注。
  • 保存并检查: 标注以 YOLO 格式保存在 .txt 文件中。软件还会保存一个“classes.txt”文件,其中列出了你所有的类别名称。

Link to this section高效的数据标注策略#

为了使数据标注过程更顺畅,有几个关键策略需要牢记。例如,明确的标注指南至关重要。如果没有这些指南,不同的标注者可能会对任务有不同的理解。

假设任务是用边界框标注图像中的鸟类。一名标注者可能会标注整只鸟,而另一名可能只标注头部或翅膀。这种不一致性可能会在训练过程中困扰模型。通过提供明确的定义(例如,“标注整只鸟,包括翅膀和尾巴”),并附上针对复杂情况的示例和说明,你可以确保数据被准确且一致地标记。

定期的质量检查对于保持高标准也很重要。通过设定基准并使用特定的指标来审查工作,你可以保持数据的准确性,并通过持续反馈来改进流程。

Link to this section数据标注简述#

数据标注是一个简单的概念,但对你的计算机视觉模型能产生重大影响。无论你是使用像 LabelImg 这样的工具来标注图像,还是在开源数据集上训练模型,理解数据标注都是关键。数据标注策略可以帮助简化整个过程并提高效率。花时间优化你的标注方法可以带来更好、更可靠的 AI 结果。

继续探索并扩展你的技能!保持与我们的社区联系,不断学习有关 AI 的知识!查看我们的 GitHub 存储库,了解我们如何利用 AI 在制造业医疗保健等行业创造创新解决方案。🚀

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅