敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024

计算机视觉中的合成数据是什么? 概述

Abirami Vina

5 分钟阅读

2025年7月4日

了解用于 AI 模型训练的合成数据如何在医疗保健和机器人等一系列行业的计算机视觉应用中使用。

数据一直是分析和人工智能(AI)等领域的驱动因素。事实上,我们收集、生成和使用数据的方式正在塑造智能系统的未来。例如,自动驾驶汽车依赖数百万张带标签的图像和传感器读数(从街道标志到行人移动)来学习如何安全地在道路上行驶。

推动这一进展的最重要的数据类型之一是视觉数据,例如图像和视频,尤其是在自动驾驶汽车和安全等领域。 

特别是,使机器能够解释这种视觉信息的人工智能领域被称为计算机视觉。它帮助系统像人类一样理解和分析视觉输入,支持面部识别、交通标志检测和医学图像分析等任务。 

然而,从现实世界中收集大规模、高质量的视觉数据集可能既耗时又昂贵,而且常常会引发隐私问题。因此,研究人员正在积极探索利用合成数据的概念。 

合成数据是指人工生成的、能够高度模仿真实世界图像和视频的视觉数据。它是通过 3D 建模、计算机模拟以及生成式 AI 方法(如 生成对抗网络 (GANs))等技术创建的,这些技术从真实数据中学习模式以生成逼真的新示例。

合成数据预计将在不久的将来在AI开发中发挥关键作用——Gartner预测,到2030年,它将比真实世界的数据更为重要。在本文中,我们将探讨在计算机视觉的背景下什么是合成数据,它是如何生成的,以及它在现实世界场景中的应用。让我们开始吧!

计算机视觉中的合成数据是什么?

假设您想训练一个 视觉 AI 模型,以检测各种环境和条件下的对象。仅依赖真实世界的数据可能很困难,有时会感到受到限制。 

同时,可以使用合成数据来创建正确的数据集,其中包含各种人工创建条件下的对象。 使用诸如 3D 建模和模拟之类的工具,开发人员可以生成图像,并精确控制光照、角度和对象放置等因素。 反过来,与真实世界的数据相比,这为模型训练提供了更大的灵活性。

当收集真实世界数据困难或不可能时,合成数据尤其有用。例如,训练一个模型来识别各种姿势的人,如跑步、蹲伏或躺下,将需要在许多不同的设置、角度和光照条件下拍摄数千张照片。 

另一方面,使用合成数据,开发人员可以轻松生成这些具有准确标签的变体,从而节省时间和精力,同时提高模型性能。

图 1. 具有不同人体姿势和光照变化的合成数据集(来源)。

人工智能中的合成数据 vs. 真实数据

接下来,让我们仔细了解合成数据和真实数据之间的区别。在训练 AI 模型方面,两者都有其优点和缺点。 

例如,合成数据在真实数据难以收集时非常有用,但它可能无法捕捉到现实生活中的每一个细节。与此同时,真实数据更真实,但可能难以获取,标注起来耗时,并且可能无法覆盖所有情况。

通过结合合成数据和真实数据,开发人员可以获得两全其美的效果。这种平衡有助于 AI 模型更准确地学习,更好地概括不同的场景,并减少偏差。

图 2. 人工智能中的合成数据与真实数据。作者供图。

计算机视觉模型的数据生成概览

从使用 3D 工具构建虚拟世界到使用生成式 AI 生成图像,以下是一些用于为计算机视觉模型创建合成训练数据的常用方法:

  • 3D 建模:开发者使用 3D 软件来创建数字对象和场景。这样可以完全控制照明、相机角度和对象放置等,并且有助于生成人物、车辆和环境的逼真图像。

  • 模拟: 这些使用基于物理的引擎重建真实世界的场景,如交通或工厂环境。模拟对于在机器人和自动驾驶汽车等领域安全地生成训练数据非常有用。

  • 生成对抗网络:GAN 是一种深度学习模型,由两个网络组成:一个用于创建图像,另一个用于评估图像。通过从真实示例中学习,它们共同生成高度逼真的图像,例如人脸或街景。

  • 程序化生成:此技术使用预定义的规则或数学模型来自动生成复杂的可视结构,如地形、建筑物或纹理。它通常用于游戏和模拟平台,并且可以用最少的人工输入生成大规模、多样化的数据集。

  • 领域随机化:它可以随机更改合成场景中的光照、颜色和对象形状等内容。 这项技术背后的目标是帮助模型专注于真正重要的内容,从而使它们更适应真实世界的环境。
图 3. 数据示例:(a) 基于 3D 模型,(b) 合成多对象场景,以及 (c) 真实数据集图像(来源)。

使用合成数据进行视觉 AI 模型训练

既然我们已经讨论了一些用于创建合成数据的不同方法,那么让我们来了解一下它是如何用于训练AI模型的。 

一旦生成,合成数据通常可以直接集成到训练流程中,就像真实数据一样。它通常包含必要的标注,例如对象标签、边界框或分割掩码,这意味着它可以用于监督学习任务,模型可以从带标签的输入-输出对中学习,而无需手动标注。

在训练期间,模型处理合成图像以学习检测特征、识别模式和分类对象。此数据可用于从头开始构建模型的初始版本,或用于丰富现有数据集,从而帮助提高模型性能。

在许多工作流程中,合成数据也用于预训练,使模型在用真实世界的例子进行微调之前,获得广泛的基础理解。同样,它也用于通过引入受控的变化(如不同的光照条件、角度或稀有对象类别)来扩充数据集,以提高泛化能力并减少过拟合。 

通过结合合成数据和真实数据,团队可以训练出更强大的模型,这些模型在各种条件下都能表现良好,同时减少对耗时且昂贵的手动数据收集工作的依赖。

合成数据在计算机视觉中的实际应用

随着合成数据变得越来越实用和易于获取,我们开始看到它被应用于各种真实的视觉 AI 用例中。让我们来探索一些它正在使用的最具影响力的计算机视觉应用

使用合成数据进行自动驾驶汽车中的目标检测

要教会自动驾驶汽车安全驾驶,需要在各种场景下训练模型,包括罕见或危险的情况。然而,收集这些极端情况的真实世界数据可能具有挑战性,有时甚至不安全。合成数据可以帮助创建模型可以学习检测困难情况下物体的场景。它还可以模拟不同的传感器配置,这很有帮助,因为并非所有自动驾驶汽车都使用相同的硬件。

NVIDIA 的 DRIVE Sim 平台就是一个很好的例子。它使用照片般逼真的 3D 模型、虚拟环境和传感器模拟来创建高质量的合成数据。它还可以从单个图像生成多个驾驶角度的图像。像这样使用合成数据有助于减少对昂贵的真实世界测试的需求,同时仍然为模型提供有效学习所需的多样性。

图 4. 从一张图像创建多个驾驶视图(source)。

利用合成数据减少医学影像 AI 中的偏差

诸如 Ultralytics YOLO11 等支持物体检测和实例分割等任务的计算机视觉模型可以针对医学成像应用进行自定义训练。但是,真实的训练数据通常包含偏差,因为它可能无法充分代表所有人口群体的患者。

例如,皮肤癌 在肤色较深的人群中诊断频率较低,导致这些人群的数据有限。这种不平衡会导致误诊和不平等的医疗保健结果,尤其是在组织病理学、胸部 X 光和皮肤病学等领域。

合成图像可以在缩小数据差距方面发挥作用。通过生成额外的、多样化的示例,例如不同的组织异常、各种肺部疾病以及具有不同病变类型的肤色,合成数据可以帮助提高模型在代表性不足的群体中的性能。 

研究人员目前正在努力开发和验证合成数据集,以支持这些目标。他们还在探索如何使用合成数据来测试医疗工具和治疗策略,而无需依赖真实的患者记录,从而有助于在保护患者隐私的同时加速研究。通过这项工作,合成数据正在为更具包容性、准确性和合乎道德的医疗 AI 系统铺平道路。

利用合成数据推进农业 AI,实现精准农业

为农业应用构建视觉 AI 系统取决于对大量标记数据的访问。然而,收集和标记农作物、病害和田间状况的图片既缓慢又昂贵,而且常常受到天气、生长季节或难以到达某些区域等因素的限制。 

这些挑战使得训练计算机视觉模型来处理诸如检测植物病害、监测作物或预测产量等任务变得困难。而合成数据可以在这方面提供帮助——通过模拟不同的农业环境来生成有用的训练样本。

图 5. 使用合成图像来改进疾病检测(来源)。

主要要点

使用合成数据代表着 AI 模型训练向前迈出的重要一步,尤其是在现实世界数据有限或难以获取的计算机视觉系统中。合成数据使我们能够按需生成逼真的、带标签的图像,而无需仅仅依赖真实的照片或视频,这可能既昂贵又耗时,还会引起隐私问题。 

它可以更轻松地训练视觉 AI 模型,用于自动驾驶、疾病检测或作物监测等任务。随着 AI 的不断发展,合成数据将在加速创新和提高各行业的普及性方面发挥更大的作用。

在我们的 GitHub 存储库上了解有关 AI 的更多信息,并加入我们不断壮大的社区。了解 AI 在自动驾驶汽车中的应用计算机视觉在农业中的应用等应用的影响。探索我们的许可选项,让您的视觉 AI 项目变为现实。

让我们一起构建人工智能的未来!

开启您的机器学习未来之旅

免费开始
链接已复制到剪贴板