了解如何通过数据增强为训练数据添加逼真的变化,从而帮助提升 AI 模型的鲁棒性和实际性能。
了解如何通过数据增强为训练数据添加逼真的变化,从而帮助提升 AI 模型的鲁棒性和实际性能。
测试是构建任何技术解决方案的关键环节。它能在系统上线前向团队展示其真实运作方式,并允许他们及早修复问题。这在包括 AI 在内的许多领域都适用,因为 AI 模型一旦部署,就需要处理不可预测的真实世界条件。
例如,计算机视觉是人工智能的一个分支,它教导机器理解图像和视频。诸如 Ultralytics YOLO26 等计算机视觉模型支持 detect、实例 segment 和图像分类等任务。
它们可广泛应用于许多行业,例如患者监测、交通分析、自动化结账以及制造业的质量检测。然而,即使拥有先进的模型和高质量的训练数据,视觉AI解决方案在面对真实世界中的各种变化时,如光照变化、运动或部分遮挡的物体,仍然可能遇到困难。
发生这种情况是因为模型从训练期间给定的示例中学习。如果它们之前没有见过眩光、运动模糊或部分可见性等条件,那么在这些场景中正确识别对象的可能性就会降低。
提升模型鲁棒性的一种方法是进行 数据增强。工程师无需收集大量新数据,即可对现有图像进行细微而有意义的修改,例如调整光照、裁剪或混合图像。这有助于模型在更广泛的场景中识别相同的物体。
在本文中,我们将探讨数据增强如何提升模型鲁棒性以及视觉 AI 系统在非受控环境下部署时的可靠性。让我们开始吧!
在深入探讨数据增强之前,我们先来讨论如何判断一个 计算机视觉模型 是否真正准备好用于实际应用。
鲁棒的模型即使在条件变化时也能持续良好运行,而不仅仅是在干净、完美标注的图像上表现良好。以下是评估 AI 模型鲁棒性时需要考虑的一些实际因素:
在清晰、完美捕获的图像上取得的良好结果,并不总是能转化为实际场景中的强大性能。在各种不同条件下进行定期测试有助于展示模型部署后的表现。
物体在照片中的呈现方式会因光照、角度、距离或背景而异。当计算机视觉模型进行训练时,它所学习的数据集需要包含这种变化,以便它能在不可预测的环境中表现良好。
数据增强通过从现有图像中创建额外的示例来扩展训练数据集。这通过应用有意的改变来实现,例如旋转或翻转图像、调整亮度或裁剪图像的一部分。
举例来说,假设你只有一张猫的照片。如果你旋转这张图片或改变其亮度,就可以从这张单一图片中创建出多个新版本。每个版本看起来略有不同,但它们仍然是同一只猫的照片。这些变体有助于模型学习到,一个物体即使外观不同,也仍然是同一个物体。

在模型训练过程中,数据增强可以直接集成到训练流程中。无需手动创建和存储新的图像副本,而是在每张图像加载时动态应用随机变换。
这意味着模型每次都会看到图像的略微不同版本,无论是更亮、翻转还是部分隐藏。随机擦除等技术甚至可以移除图像的小区域,以模拟物体被遮挡或仅部分可见的真实世界情况。

看到同一图像的多种不同版本,使模型能够学习哪些特征是重要的,而不是依赖于一个完美的示例。这种多样性增强了AI模型的鲁棒性,使其在真实世界条件下能够更可靠地运行。
以下是一些用于在训练图像中引入变化的数据增强技术:

管理数据集、创建图像变体和编写变换代码可能会增加构建计算机视觉应用的额外步骤。Ultralytics python 包通过提供一个用于训练、运行和部署 Ultralytics YOLO 模型(如 YOLO26)的统一接口来简化这一过程。作为简化训练工作流程的一部分,该包包含了内置的、经过 Ultralytics 测试并为 YOLO 模型优化的数据增强功能。
它还支持有用的集成,消除了对独立工具或自定义代码的需求。具体来说,在数据增强方面,该包集成了广泛使用的图像增强库 Albumentations。这种集成使得增强功能可以在训练期间自动应用,无需额外的脚本或自定义代码。
影响模型鲁棒性的另一个因素是标注质量。使用 Roboflow 等标注工具创建和管理的清晰、准确的标签,有助于模型理解物体的位置和外观。
在训练过程中,翻转、裁剪和旋转等数据增强操作是动态应用的,并且标注也会自动调整以匹配这些变化。当标签精确时,这个过程会顺利进行,为模型提供同一场景的许多真实示例。
如果标注不准确或不一致,这些错误可能会在增强图像中重复出现,从而降低训练效果。从准确的标注开始,可以防止这些错误的扩散,并有助于提高模型的鲁棒性。
接下来,我们将通过示例来探讨数据增强如何在实际应用中提升AI模型的鲁棒性。
当真实数据有限、敏感或难以收集时,合成图像常用于训练目标 detect系统。它们使团队能够快速生成产品、环境和摄像机角度的示例,而无需在现实生活中捕捉每一个场景。
然而,与真实世界的影像相比,合成数据集有时可能显得过于“干净”,而真实世界中存在光线变化、物体重叠和背景杂乱等情况。数据增强通过引入真实世界的变体,例如不同的光照、噪声或物体放置,来弥补这一差距,从而使模型能够学习处理部署时将遇到的各种条件。
例如,在最近的一项研究中,一个 YOLO11 模型完全使用合成图像进行训练,并加入了数据增强以引入额外的变化。这在模型更广泛地识别物体方面发挥了作用。尽管在训练期间从未见过真实世界数据,但该模型在真实图像上进行测试时表现良好。
医学影像数据集通常有限,且扫描本身可能因设备类型、成像设置或临床环境而异。患者解剖结构、角度、光照或视觉噪声的差异,可能使计算机视觉模型难以学习到能在不同患者和医院之间良好泛化的模式。
数据增强通过在训练期间创建同一扫描的多种变体来解决此问题,例如添加噪声、轻微移动图像或施加微小形变。这些改变使训练数据更能代表真实的临床情况。
例如,在一项儿科影像研究中,研究人员使用YOLO11进行解剖结构分割,并在增强的医学数据上对其进行训练。他们引入了添加噪声、轻微位置偏移和微小形变等变体,以使图像更真实。

通过从这些变体中学习,模型专注于有意义的解剖特征,而不是表面层面的差异。这使得其分割结果在不同的扫描和患者病例中更加稳定。
收集多样化数据很困难,但数据增强使模型能够从更广泛的视觉条件中学习。这在处理遮挡、光照变化和拥挤场景时带来了更强的模型鲁棒性。总的来说,这有助于它们在受控训练环境之外更可靠地执行。
加入我们的社区,在我们的GitHub 存储库中探索视觉人工智能的最新进展。访问我们的解决方案页面,了解制造业中的人工智能和医疗保健中的计算机视觉等应用如何推动进步,并查看我们的许可选项,为您的下一个人工智能解决方案提供支持。
开启您的机器学习未来之旅