了解Ultralytics 如何利用人工智能实现标注自动化、管理海量数据集、提高一致性,并加速计算机视觉开发进程。
了解Ultralytics 如何利用人工智能实现标注自动化、管理海量数据集、提高一致性,并加速计算机视觉开发进程。
能够分析图像和视频的计算机视觉解决方案正逐渐成为许多行业工作流程中的常规组成部分,从制造业到医学影像领域皆是如此。以制造业为例,检测传送带上移动的产品表面的缺陷,就依赖于能够识别细微特征的计算机视觉模型。
为了使此类模型发挥良好效果,必须使用标注数据对其进行训练,其中每个缺陷都应被明确标出。这使模型能够学会识别目标特征,并识别出类似的模式。
创建这些标签的过程被称为数据标注。具体而言,图像标注和视频标注包括绘制边界框、勾勒形状,或在图像和视频帧中对特定区域进行标注。
虽然对于小型数据集来说这尚可应对,但随着数据量的增长,处理难度会迅速增加。为数千张图像标注标签需要持续的人工投入,这使得标注成为主要瓶颈。传统工具往往运行缓慢、功能分散且难以扩展。
Ultralytics 作为一款一体化视觉人工智能平台,通过人工智能辅助标注技术帮助解决这些难题。该平台利用人工智能自动生成初始标签,这些标签可快速进行审核和优化,从而减少人工工作量并提高效率。
在本文中,我们将探讨人工智能辅助标注在Ultralytics 运作原理,以及它如何优化标注流程。让我们开始吧!
在深入Ultralytics 基于AI的标注功能之前,让我们先来详细了解一下数据标注。
数据标注(也称为数据标贴)是指为原始数据分配结构化标签的过程,以便将其用于训练机器学习模型。在计算机视觉领域,这些标签用于定义图像或视频中感兴趣的对象、区域或特征。
在训练过程中,模型或算法会学习将输入数据映射到这些标签上,因此标注质量是影响模型性能的关键因素。准确且一致的标注数据集能使模型学会正确的模式,而质量低劣或不一致的标注则会导致预测结果不可靠。
例如,在缺陷检测的应用场景中,可以通过标注传送带上产品图像中缺陷出现的位置并标明缺陷类型,来对图像进行标注。这有助于模型学习缺陷的外观特征,从而能在新图像中识别出这些缺陷。
接下来,让我们看看计算机视觉中常见的图像标注方法。这些方法用于为视觉数据添加标签,以支持物体检测、实例分割和图像分类等任务。每种标注方法都具有不同的功能,例如定位物体、捕捉形状或识别关键结构。
边界框是在图像中围绕物体绘制的简单矩形,用于标示物体的位置。这是计算机视觉中标记数据最常见的方法之一。
通过使用这些边界框对图像进行训练,物体检测模型能够学会识别不同的物体,并理解它们在图像中的位置。这使得它们能够同时detect 物体,并确定每个物体的具体位置。
例如,假设我们正在利用计算机视觉技术分析一场棒球比赛。可以在每一帧画面中为球员、球棒和棒球标注边界框,从而让模型在整场比赛中detect 识别这些物体。

多边形(也称为分割掩码)比边界框更进一步,能够在像素级别对物体进行标注。它们不再只是绘制一个粗略的矩形,而是能够捕捉图像中每个物体的精确形状和边缘。这使得它们在需要更详细理解的任务中非常有用。
例如,在自动驾驶领域,分割掩码被应用于语义分割等任务——在该任务中,每个像素会被分配一个类别(如道路或天空)——以及实例分割等任务——在该任务中,车辆或行人等单独的物体会被分别识别出来。
它们还用于背景去除等任务,即需要将某个对象(例如人物)从图像的其他部分中分离出来。
关键点用于标记物体上的特定位置,例如人体的关节或动物的身体部位。通过识别这些点,模型能够理解物体的结构及其各部分之间的相对位置。
在计算机视觉领域,这被称为姿势估计 ”,其目标是确定这些关键点的位置,并理解它们之间的相互关系。通过随时间推移对这些点进行追踪,便能够分析运动及姿态的变化。

一个常见的例子是在视频中标记人体关节,以便分析人体动作。通过关注这些关键点,模型能够捕捉人的身体位置以及其姿势随时间的变化。
图像中的物体并非都完全对齐。在许多实际场景中,物体看起来会倾斜、旋转,或者从不同角度被观察。
在这种情况下,标准的边界框往往难以胜任,因为它们可能会包含不必要的背景,或者无法与物体紧密贴合。定向边界框通过使用与物体方向对齐的旋转矩形来解决这一问题。这样可以生成更紧凑、更精确的标注。
这种方法应用于旋转框检测在此类检测中,模型既能识别物体的位置,也能识别其朝向。例如在航拍图像中,建筑物、船只或车辆等物体往往以不同的角度出现。旋转框有助于更准确地捕捉场景中物体的真实形状和方向。
与其他标注方法不同,分类标注采用的是为整张图像分配单一标签的方式,而非标记特定的物体或区域。当目标是识别图像中包含的内容,而不关注其具体位置时,便会采用这种方法。
例如,可以根据图像的整体内容将其标记为“猫”或“狗”。这使得图像分类在仅需对图像进行高层次理解的任务中非常有用。
许多传统的标注工具依赖于多步骤且彼此割裂的工作流程。AI开发团队通常需要在标注、存储和验证等不同平台之间来回切换,这导致AI项目进展缓慢。
大多数工具仅支持有限的标注类型和数据类型,因此团队最终不得不分别使用不同的工具来处理边界框、分割和关键点。这种分散的配置难以管理,对于刚接触计算机视觉的团队来说尤其如此。
人工标注是另一个主要挑战。虽然标注单张图像可能只需几分钟,但处理大型数据集很快就会变得耗时,尤其是当类似图像涉及重复性工作时。
随着数据集规模的扩大,团队不仅需要管理文件、track 版本,还需确保标注的一致性。这增加了工作量,导致更多时间用于数据管理,而用于提升模型性能的时间则相应减少。
更高效的方法是在Ultralytics 使用 AI 辅助标注功能。该功能利用人工智能生成并优化标签,既能减少人工工作量,又能提高处理速度和一致性,且所有操作均在同一环境中完成,该环境集数据集管理、标注、模型训练、部署和监控于一体。
Ultralytics 通过将标注工作直接与计算机视觉工作流的其他环节相连接,从而简化了标注流程。团队无需依赖独立工具,而是在单一环境中即可处理数据、标注和模型。
它支持多种计算机视觉任务,包括目标检测、图像分类、实例分割、姿势估计 以及带方向的边界框检测。
在此架构下,标注工作可通过多种方式完成。团队既可以手动标注数据以实现全面控制,也可以使用SAM智能标注进行交互式点标注,或者采用YOLO智能标注自动生成标注结果,随后进行审核和优化。这种灵活性使得处理不同的数据集和满足各种标注要求变得更加轻松。

由于人工智能辅助标注和人工标注已与数据集管理和模型训练深度集成,团队能够无缝地从数据标注过渡到数据集组织和模型训练。这确保了工作流的有序性,并消除了在不同工具之间切换或重新格式化标注内容的必要。
该平台还支持Ultralytics YOLO ,例如 Ultralytics YOLO11 和Ultralytics 使标注数据能够直接用于训练和测试。这使得通过持续迭代更容易发现数据集中的缺失部分、优化标注并重新训练模型。
Ultralytics 上的SAM智能标注功能旨在加快物体检测、实例分割以及旋转框检测框旋转框检测任务的标注速度。
该平台提供了多种SAM ,包括SAM .1 Tiny、SAM .1 Small、SAM .1 Base、SAM .1 Large 和SAM ,让用户可以在速度和准确性之间进行选择。

较小的模型(如 Tiny 和 Small)处理速度更快,非常适合快速标注工作流;而较大的模型(如 Large 和SAM )则能为更复杂的场景提供更高的准确率。切换模型后,标注行为会立即更新。
在标注编辑器中,选定SAM 后,人工标注员即可进入智能模式开始标注。无需手动绘制形状,只需通过简单的点式输入即可引导模型。
左键单击可添加正向点以包含某个区域,而右键单击可添加负向点以排除不需要的区域。基于这些输入,模型会实时生成精确的蒙版。
为加快工作流程,可启用“自动应用”模式。启用后,每次点击都会自动生成并保存一个标注,无需手动确认。对于更复杂的对象,标注人员可以在应用蒙版前按住“Shift”键放置多个点,或者禁用“自动应用”功能,自由添加点,然后按“Enter”键应用蒙版。
与SAM智能标注类似,Ultralytics 上的YOLO 标注利用人工智能来加快标注流程。它不再通过点击来引导模型,而是利用模型的预测结果自动生成标注。
该方法支持物体检测、实例分割以及旋转框检测标注等任务。它专门适用于Ultralytics YOLO ,包括Ultralytics 提供的预训练Ultralytics 自定义训练的YOLO 。
在标注编辑器中,标注员可以进入智能模式,从模型选择器中选择一个YOLO ,然后点击“预测”。模型选择器仅显示与当前数据集任务匹配的YOLO ,以确保生成的标注兼容。
该模型会分析图像,并根据其预测结果生成标注,随后将这些标注直接添加到图像中。如果预测结果与同一类别的现有标注输出发生重叠,且重叠程度超过设定的阈值,系统会自动跳过重复检测,从而有助于保持标签的干净和一致性。

生成预测结果后,人工标注员可根据需要进行审查、调整或删除。这种方法以模型生成的标注为基础,再对其进行优化,而非手动标注所有数据,从而更轻松地快速标注大型数据集。
随着时间的推移,经过优化的YOLO 可以被重复利用以生成更准确的预测结果,从而支持迭代式自动标注工作流。
接下来,让我们通过一些示例,了解Ultralytics 如何在各种实际应用场景中实现数据标注。
集成了计算机视觉模型的自动驾驶车辆依赖于标注完善的视觉数据,以便实时感知周围环境。基于这些数据训练的模型能够detect segment 、行人、交通标志和道路边界。
分割任务需要精确的像素级边界,这使得标注工作既至关重要又耗时。手动标注海量的传感器数据很快就会成为瓶颈,尤其是在复杂的驾驶场景中。
Ultralytics 结合SAM YOLO 实现的 AI 辅助标注,简化了这一流程。SAM智能标注支持通过点击快速进行分割并生成精确的遮罩,而YOLO 则可用于在多张图像上自动生成标注。
综合运用这些方法,可以更轻松地处理包含重叠物体的复杂场景。
由于标注工作与模型训练直接相关,因此更新后的大规模数据集可立即用于重新训练和评估模型。这使团队能够持续提升性能,并更高效地适应新的驾驶条件。
在制造业中,保持稳定的质量控制取决于能否在生产过程中准确检测缺陷。计算机视觉模型常被用于实时识别问题,但其性能取决于训练数据在多大程度上反映了实际的生产状况。
制造环境的变化(例如原材料、机器设置或照明条件的变动)可能会导致出现一些原本未包含在训练数据中的新型或罕见缺陷。这会导致模型所学内容与生产线上实际出现的情况之间产生偏差。
为了保持数据的一致性,需要定期使用高质量的内部标注对数据集进行更新。随着新的缺陷模式出现Ultralytics 能够轻松更新标注并扩展数据集。随后,这些更新后的数据集可用于重新训练模型,从而帮助团队更快地适应不断变化的生产环境。
施工现场是一个动态的环境,这里有多个施工团队、移动的设备以及不断变化的布局。在这种情况下,能否确保安全取决于清晰且标注详尽的视觉数据。
准确的标注能够提升数据质量,并帮助人工智能系统在各种现场条件下(包括拥挤的场景、不断变化的背景以及多变的光线)识别人员、设备、安全装备及潜在风险。
Ultralytics 支持这一功能,使您能够随着现场情况的变化轻松更新和优化标注。新图像一经获取即可添加到数据集中,确保数据始终与实际场景保持一致。
高质量的标注对于构建可靠的计算机视觉和人工智能模型至关重要,但传统的工作流程往往会拖慢团队的进度。Ultralytics 通过自动化标注工具和可扩展的工作流程,简化了这一过程。因此,团队能够在保持准确性和一致性的同时,更快地从数据阶段过渡到模型阶段。
欢迎访问我们不断壮大的社区和 GitHub 代码库,了解更多关于计算机视觉的信息。如果您希望构建视觉解决方案,请查看我们的授权方案。浏览我们的解决方案页面,深入了解计算机视觉在制造业以及人工智能在医疗保健领域的优势。
开启您的机器学习未来之旅