什么是计算机视觉中的合成数据?概述

阿比拉米-维纳

5 分钟阅读

2025 年 7 月 4 日

探索用于人工智能模型训练的合成数据如何在医疗保健和机器人等多个行业的计算机视觉应用中使用。

数据一直是分析和人工智能(AI)等领域的驱动因素。事实上,我们收集、生成和使用数据的方式正在塑造智能系统的未来。例如,自动驾驶汽车依靠数以百万计的标注图像和传感器读数(从街道标志到行人动向)来学习如何在道路上安全导航。

推动这一进步的最重要数据类型之一,尤其是在自动驾驶汽车和安全等领域,就是图像和视频等可视化数据。 

尤其是人工智能领域,它能让机器解读这些视觉信息,被称为计算机视觉。它帮助系统像人类一样理解和分析视觉输入,支持面部识别、交通标志检测和医学图像分析等任务。 

然而,从现实世界中收集大规模、高质量的可视化数据集不仅耗时长、成本高,而且经常会引发隐私问题。因此,研究人员正在积极探索利用合成数据的概念。 

合成数据指的是人工生成的视觉效果,与真实世界的图像和视频非常相似。合成数据是利用三维建模、计算机模拟和生成式人工智能方法生成对抗网络,GANs)等技术生成的,生成对抗网络从真实数据中学习模式,生成逼真的新示例。

合成数据有望很快在人工智能开发 中发挥关键作用--Gartner 预测,到 2030 年,合成数据将变得比真实世界数据更重要。在本文中,我们将从计算机视觉的角度探讨什么是合成数据、合成数据是如何生成的,以及合成数据在现实世界中的应用场景。让我们开始吧!

什么是计算机视觉中的合成数据?

假设您想训练一个视觉人工智能模型,以检测不同环境和条件下的物体。仅依靠真实世界的数据可能会很困难,有时甚至会感觉受到限制。 

同时,合成数据可用于创建正确的数据集,其中包含各种人为条件下的物体。利用三维建模和模拟等工具,开发人员可以生成精确控制照明、角度和物体位置等因素的图像。这反过来又为模型训练提供了比真实世界数据更大的灵活性。

在难以或无法收集真实世界数据的情况下,合成数据尤其有用。例如,要训练一个模型识别跑步、蹲下或躺下等各种姿势的人,就需要在不同的环境、角度和光线条件下拍摄数千张照片。 

另一方面,通过合成数据,开发人员可以轻松生成这些带有准确标签的变化,从而节省时间和精力,同时提高模型性能。

图 1.具有不同人体姿势和光照变化的合成数据集(来源)。

人工智能中的合成数据与真实数据

接下来,让我们仔细看看合成数据和真实数据之间的区别。在训练人工智能模型时,两者各有利弊。 

例如,当真实数据难以收集时,合成数据就很有用,但它可能无法捕捉到现实生活中的每一个小细节。同时,真实数据更加真实,但它可能难以获得,标注费时,而且可能无法涵盖所有情况。

通过结合合成数据和真实数据,开发人员可以获得两个世界的最佳结果。这种平衡有助于人工智能模型更准确地学习,在不同场景中更好地泛化,并减少偏差。

图 2.人工智能中的合成数据与真实数据。图片由作者提供。

计算机视觉模型的数据生成

从使用三维工具构建虚拟世界,到使用生成式人工智能生成图像,以下是一些为计算机视觉模型创建合成训练数据的常用方法:

  • 3D 建模:开发人员使用 3D 软件创建数字对象和场景。这样就可以完全控制灯光、摄像机角度和物体位置等,有助于生成逼真的人物、车辆和环境图像。

  • 模拟:这些模拟利用基于物理的引擎,再现了真实世界的情况,如交通或工厂环境。模拟可用于安全生成机器人和自动驾驶汽车等领域的训练数据。

  • 生成对抗网络:生成式对抗网络是一种深度学习模型,由两个网络组成:一个负责创建图像,另一个负责评估图像。通过从真实案例中学习,它们可以共同生成高度逼真的图像,如人脸或街景。

  • 程序生成:这种技术使用预定义的规则或数学模型自动生成复杂的视觉结构,如地形、建筑或纹理。它常用于游戏和模拟平台,只需极少的人工输入就能生成大规模、多样化的数据集。

  • 领域随机化:它可以随机改变合成场景中的光照、颜色和物体形状。这项技术的目的是帮助模型专注于真正重要的东西,使其更适应真实世界的环境。
图 3.数据示例:(a) 基于三维模型,(b) 合成多物体场景,(c) 真实数据集图像(来源)。

利用合成数据进行视觉人工智能模型训练

既然我们已经讨论了用于创建合成数据的一些不同方法,下面就让我们来了解一下如何将其用于训练人工智能模型。 

合成数据一旦生成,通常就能以与真实世界数据相同的方式直接集成到训练管道中。合成数据通常包含必要的注释,如对象标签、边界框或分割掩码,这意味着它可用于监督学习任务,即模型从标注的输入输出对中学习,而无需手动标注。

在训练过程中,模型会处理合成图像,学习检测特征、识别模式和对物体进行分类。这些数据可用于从头开始构建模型的初始版本,或用于丰富现有数据集,帮助提高模型性能。

在许多工作流程中,合成数据还被用于预训练,在使用真实世界的示例进行微调之前,让模型获得广泛的基础理解。同样,合成数据也可用于增强数据集,引入可控变化,如不同的照明条件、角度或稀有对象类别,以提高泛化能力并减少过拟合。 

通过将合成数据与真实数据相结合,团队可以训练出更强大的模型,在各种条件下都能表现出色,同时减少对耗时且昂贵的人工数据收集工作的依赖。

合成数据在计算机视觉中的实际应用

随着合成数据变得越来越实用和容易获取,我们开始看到它被广泛应用于各种真实的视觉人工智能用例中。让我们来探讨计算机视觉中使用合成数据的一些最具影响力的应用

使用合成数据检测自动驾驶汽车中的物体

要让自动驾驶汽车学会安全驾驶,需要在各种场景下对模型进行训练,包括罕见或危险的情况。然而,为这些边缘情况收集真实世界的数据可能具有挑战性,有时甚至不安全。合成数据有助于创建场景,让模型学会在困难情况下检测物体。合成数据还可以模拟不同的传感器配置,这很有帮助,因为并非所有自动驾驶汽车都使用相同的硬件。

英伟达™(NVIDIA®)的 DRIVE Sim平台就是一个很好的例子。它利用逼真的 3D 模型、虚拟环境和传感器模拟创建高质量的合成数据。它还可以从单一图像生成多个驾驶角度的图像。 使用这样的合成数据有助于减少对昂贵的真实世界测试的需求,同时还能为模型提供有效学习所需的多样性。

图 4.从一张图像创建多个驾驶视图(资料来源)。

利用合成数据减少医学成像人工智能中的偏差

Ultralytics YOLO11这样支持物体检测和实例分割等任务的计算机视觉模型可以针对医疗成像应用进行定制训练。然而,真实世界的训练数据往往存在偏差,因为它可能无法充分代表所有人口群体的患者。

例如,肤色较深的人较少诊断出皮肤癌,导致这些人群的数据有限。这种不平衡会导致误诊和不平等的医疗结果,尤其是在组织病理学、胸部 X 射线和皮肤病学等领域。

合成图像可以在缩小数据差距方面发挥作用。通过生成额外的、多样化的示例,如各种组织异常、广泛的肺部状况以及不同病变类型的肤色,合成数据可以帮助改善代表性不足群体的模型性能。 

研究人员目前正在开发和验证合成数据集,以支持这些目标的实现。他们还在探索如何利用合成数据来测试医疗工具和治疗策略,而无需依赖真实的患者记录,从而在保护患者隐私的同时帮助加快研究进度。通过这项工作,合成数据正在为更具包容性、准确性和道德性的医疗人工智能系统铺平道路。

利用合成数据推进农业人工智能,实现精准农业

为农业应用构建视觉人工智能系统有赖于获取大量标注数据。然而,收集和标注农作物、疾病和田间状况的图片既缓慢又昂贵,而且往往受到天气、生长季节或到达某些地区的难度等因素的限制。 

这些挑战使得训练计算机视觉模型来处理检测植物病害、监测作物或预测产量等任务变得十分困难。这正是合成数据可以提供帮助的地方--通过模拟不同的农业环境来生成有用的训练示例。

图 5.利用合成图像改进疾病检测(资料来源)。

主要收获

使用合成数据代表着人工智能模型训练向前迈出的重要一步,尤其是在真实世界数据有限或难以获得的领域中的计算机视觉系统。合成数据可以让我们按需生成逼真的标注图像,而不是仅仅依赖于真实的照片或视频,因为真实的照片或视频可能成本高、耗时长,或会引发隐私问题。 

它可以更轻松地训练视觉人工智能模型,以完成自动驾驶、疾病检测或作物监测等任务。随着人工智能的不断发展,合成数据将在加速创新和提高各行业的可及性方面发挥更大的作用。

在我们的GitHub 存储库中了解有关人工智能的更多信息,并加入我们日益壮大的社区。了解人工智能在自动驾驶汽车农业计算机视觉等应用中的影响。探索我们的许可选项,将您的视觉人工智能项目付诸实践。

让我们共同打造人工智能的未来

开始您的未来机器学习之旅

免费开始
链接复制到剪贴板