术语表

合成数据

释放人工智能/人工智能合成数据的力量!克服数据稀缺、隐私问题和成本问题,同时促进模型训练和创新。

合成数据是为模仿真实世界数据而人工生成的信息。在人工智能(AI)机器学习(ML)领域,它是训练人工智能模型的真实世界数据的有力替代或补充。由于隐私法规或某些事件的罕见性,收集广泛、高质量和适当标注的真实世界数据集可能成本高昂、耗时长,有时甚至不切实际。合成数据提供了一种解决方案,使开发人员能够按需生成大量完美标注的数据,从而解决了这些限制,加快了强大的计算机视觉(CV)系统的开发。

如何生成合成数据?

合成数据可以通过几种先进的技术创建,每种技术都适用于不同的应用。这些方法可以精确控制生成数据的特征,如照明、物体位置和环境条件。

  • 3D 建模与仿真:开发人员利用计算机图形和模拟环境创建逼真的虚拟世界。这种方法在机器人和自主系统中很常见,物理引擎可以模拟真实世界的物理现象。英伟达™(NVIDIA®)DRIVE Sim等平台可用于生成用于训练自动驾驶汽车的数据。
  • 生成模型生成对抗网络(GAN)以及最近的扩散模型等技术是生成式人工智能的核心组成部分。这些模型从真实数据中学习基本模式,从而创建全新的、逼真的样本。这对于生成多样化的人脸或复杂场景尤其有用。
  • 程序生成:这种方法使用算法和规则自动创建数据。它被广泛应用于视频游戏开发中,用于生成大规模环境,并能以最小的人工工作量生成各种训练数据
  • 领域随机化:一种有意改变模拟参数(如光照、纹理和物体位置)的技术。这有助于训练有素的模型从模拟环境更好地泛化到真实世界环境,迫使其专注于基本特征。托宾等人的一篇开创性论文证明了这一方法在机器人操纵方面的有效性。

实际应用

合成数据的使用正在许多行业中不断扩大,从而在现实世界数据成为瓶颈的领域实现突破。

  1. 自动驾驶汽车:训练自动驾驶汽车需要数百万英里的驾驶数据,包括罕见的危险场景,如事故或极端天气。在现实世界中收集这些数据既不安全,也不切实际。合成数据可以让开发人员在安全可控的环境中模拟这些边缘情况,提高物体检测和导航系统的鲁棒性。像Waymo这样的公司在很大程度上依赖模拟来进行测试和验证。
  2. 人工智能在医疗保健领域的应用:在医学图像分析中,患者数据高度敏感,受到HIPAA 等严格隐私法的保护。此外,罕见疾病的数据非常稀缺。合成数据可用于生成逼真的医学扫描(如 CT 或 MRI),而不会损害数据隐私。这有助于创建更大、更均衡的数据集,减少人工智能偏差,提高皮肤癌检测等疾病诊断模型的准确性。

合成数据与数据增强

虽然合成数据和数据扩增的目的都是为了增强数据集,但它们的运作方式不同。

  • 数据增强:这种技术包括对现有的真实世界图像进行旋转、裁剪或颜色偏移等变换。它通过创建原始数据的修改版本来增加训练集的多样性。您可以进一步了解Ultralytics YOLO 模型中使用的增强技术
  • 合成数据:这包括使用模拟或生成模型从头开始创建全新的数据。它不是从现有数据点中提取的,可以代表原始数据集中完全没有的情景。

总之,数据增强可以改变现有数据,而合成数据则可以创建新数据。这两种技术都很强大,通过Ultralytics HUB 等平台的管理,可以将它们结合起来,建立高度强大和准确的深度学习模型。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板