术语表

合成数据

释放人工智能/人工智能合成数据的力量!克服数据稀缺、隐私问题和成本问题,同时促进模型训练和创新。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

合成数据是指模仿真实世界数据的统计特性而人为生成的信息,而不是直接从真实事件或测量中收集而来。在人工智能(AI)机器学习(ML)领域,合成数据是真实训练数据的重要替代或补充。当收集足够的真实世界数据存在困难、昂贵、耗时(数据收集和注释指南)或引发数据隐私问题时,合成数据就显得尤为重要。这种人工创建的信息有助于训练模型,例如 Ultralytics YOLO等模型,测试系统,探索现实中可能罕见或危险的场景,最终提高创新能力和模型性能。

如何创建合成数据

根据所需的复杂性和保真度,合成数据生成采用了各种技术。一些常见的方法包括

在人工智能和计算机视觉领域的重要性

合成数据为人工智能开发和计算机视觉提供了多项重大优势:

  • 克服数据匮乏:在真实世界数据有限或获取成本高昂的情况下提供大量数据,帮助训练强大的模型(模型训练提示)。
  • 增强数据隐私:生成的数据既保留了统计属性,又不包含敏感的真实世界信息,有助于遵守隐私法规,并支持差分隐私等技术。
  • 减少偏差:可通过精心控制来减轻或增强代表性不足的群体或场景的代表性,帮助解决数据集偏差问题,促进人工智能的公平性
  • 覆盖边缘情况:允许创建代表罕见或危险场景(如自动驾驶汽车事故、罕见病症)的数据,这些场景在现实中很难捕捉到。这可以提高模型的通用性
  • 成本和时间效率:与收集和标注真实世界的数据相比,生成数据的成本通常更低,速度更快(数据标注详解)。

在计算机视觉领域,合成图像经常被用来训练任务模型,如物体检测图像分割和不同条件下的姿态估计(如不同的光照、天气和视角),而这些条件在现有数据集中可能很难找到。

实际应用

合成数据应用于众多行业:

其他应用包括金融建模(AI in Finance)、零售(AI for Smarter Retail)和机器人培训

合成数据与数据增强

虽然合成数据和数据增强都旨在增强数据集,但它们是不同的概念:

  • 数据增强:涉及对现有真实数据点进行转换(如旋转、裁剪、颜色偏移),以创建略有改动的版本。它在原始数据分布的基础上增加了训练集的多样性。Ultralytics 模型通常包含内置增强功能(Albumentations Integration)。
  • 合成数据:指人工生成的全新数据,通常使用模拟或生成模型(如GAN)。它不一定从特定的真实数据点出发,也可以代表原始数据集中完全没有的场景。

从本质上讲,数据扩增可以扩大现有数据的差异,而合成数据则可以创建全新的数据点和场景,为通过Ultralytics HUB 等平台管理的人工智能模型训练提供了一种补充甚至替代真实数据的强大方法。

阅读全部