合成数据
释放合成数据在 AI/ML 中的强大功能!克服数据稀缺、隐私问题和成本,同时促进模型训练和创新。
合成数据是人为生成的信息,旨在模仿真实世界的数据。在人工智能(AI)和机器学习(ML)领域,它是真实世界数据的强大替代或补充,用于训练AI模型。收集广泛、高质量且正确标记的真实世界数据集可能成本高昂、耗时,有时由于隐私法规或某些事件的稀有性而不切实际。合成数据通过使开发人员能够按需生成大量完美标记的数据来提供解决方案,从而解决这些限制并加速稳健的计算机视觉(CV)系统的开发。
如何生成合成数据?
可以使用几种先进的技术来创建合成数据,每种技术都适用于不同的应用。这些方法可以精确控制生成数据的特征,例如光照、物体放置和环境条件。
- 3D 建模与仿真:开发者使用计算机图形和仿真环境来创建照片般逼真的虚拟世界。这种方法在机器人技术和自主系统中很常见,在这些领域,物理引擎可以模拟真实世界的物理特性。诸如 NVIDIA DRIVE Sim 等平台用于生成训练自动驾驶汽车的数据。
- 生成模型:诸如生成对抗网络 (GANs)以及最近的扩散模型等技术是生成式 AI的核心组成部分。这些模型从真实数据中学习潜在模式,以创建全新的、逼真的样本。这对于生成各种人脸或复杂场景特别有用。
- 程序化生成:此方法使用算法和规则来自动创建数据。它广泛用于视频游戏开发中,以生成大规模环境,并且可以进行调整以产生各种训练数据,而无需过多的人工干预。
- 领域随机化:一种有意改变模拟参数(如光照、纹理和对象位置)的技术。 这有助于经过训练的模型更好地从模拟环境推广到真实环境,因为它迫使模型专注于基本特征。 Tobin等人撰写的一篇有影响力的论文证明了其在机器人操作方面的有效性。
实际应用
合成数据的使用正在许多行业中扩展,从而在真实世界数据成为瓶颈的地方实现了突破。
- 自动驾驶汽车: 训练自动驾驶汽车需要数百万英里的驾驶数据,包括罕见和危险的场景,如事故或极端天气。在现实世界中收集这些数据是不安全且不切实际的。合成数据允许开发人员在安全、受控的环境中模拟这些极端情况,从而提高目标检测和导航系统的稳健性。像Waymo这样的公司非常依赖模拟来进行测试和验证。
- 医疗保健中的人工智能: 在医学图像分析中,患者数据高度敏感,并受到严格的隐私法(如HIPAA)的保护。此外,罕见疾病的数据也很稀缺。可以使用合成数据来生成逼真的医学扫描(例如,CT或MRI),而不会损害数据隐私。这有助于创建更大、更平衡的数据集,减少人工智能偏差,并提高皮肤癌检测等疾病的诊断模型的准确性。
合成数据 vs. 数据增强
虽然合成数据和数据增强都旨在增强数据集,但它们的操作方式不同。
- 数据增强:此技术涉及将旋转、裁剪或颜色偏移等转换应用于现有的真实世界图像。 它通过创建原始数据的修改版本来增加训练集的多样性。 您可以了解更多关于 Ultralytics YOLO 模型中使用的增强。
- 合成数据:这涉及使用模拟或生成模型从头开始创建全新的数据。它不是从现有数据点派生的,并且可以表示原始数据集中完全不存在的场景。
总而言之,数据增强会改变现有数据,而合成数据会创建新数据。这两种都是强大的技术,可以结合使用来构建高度稳健和准确的深度学习模型,这些模型可以通过 Ultralytics HUB 等平台进行管理。