Synthetic Data
发现合成数据如何驱动 AI 和机器学习。学习如何为 Ultralytics YOLO26 生成高质量数据集以立即提高模型准确度。
合成数据是人工生成的信息,它模仿了真实世界数据的统计属性、模式和结构特征。在快速发展的人工智能 (AI) 和 机器学习 (ML) 领域,当收集真实数据成本高昂、耗时费力或受到隐私法规限制时,这些数据就成为了一种至关重要的资源。与从现实事件中获取的有机数据不同,合成数据是通过计算机模拟和高级生成模型等技术以算法方式创建的。到2030年,Gartner 的行业分析师预测,合成数据在 AI 模型中的使用将超过真实数据,从根本上改变智能系统的构建和部署方式。
Link to this section合成数据在 AI 开发中的作用#
使用合成数据集的主要驱动力在于克服传统数据收集与标注中固有的局限性。训练强大的计算机视觉 (CV) 模型通常需要包含多样化场景的海量数据集。当真实世界数据稀缺时——例如在罕见疾病诊断或危险的边缘情况交通事故中——合成数据就能填补这一空白。
生成此类数据使开发人员能够按需创建完美标注的训练数据。这包括用于目标检测的精确边界框,或用于语义分割的像素级掩码,从而消除了手动标注过程中常见的人为错误。此外,它还允许工程师有意地平衡包含代表性不足群体或环境条件的数据集,确保模型性能更加公平,从而解决 AI 偏见问题。
Link to this section实际应用#
合成数据正在彻底改变那些对数据隐私、安全性和可扩展性要求极高的行业。
- 自动驾驶模拟: 仅在物理世界中测试自动驾驶车辆既有风险,又受到地理位置的限制。企业利用NVIDIA Omniverse 等照片级真实感模拟器来训练其感知系统。这些模拟器可以生成数十亿英里的虚拟里程,使 AI 接触到在现实世界中难以持续捕获的危险天气、不稳定的行人行为和复杂的城市布局。
- 医疗保健与医学影像: HIPAA 和 GDPR 等患者隐私法对医疗记录的共享有着严格的监管。合成数据使得创建逼真的医学图像分析数据集(如 X 光片或 MRI 扫描)成为可能,这些数据集在不包含任何个人身份信息的情况下保留了病理特征。这使得研究人员能够在不泄露患者机密的前提下,协同训练肿瘤检测模型。
Link to this section为视觉 AI 生成合成数据#
创建高质量的合成数据通常涉及两种主要方法:模拟引擎和生成式 AI。像 Unity Engine 这样的模拟引擎使用 3D 图形来渲染具有基于物理照明和纹理的场景。或者,生成对抗网络 (GANs) 和扩散模型等生成模型则通过学习真实数据的分布来合成全新的、具有照片级真实感的示例。
一旦生成了合成数据集,它就可以用于训练高性能模型。以下 Python 示例演示了如何使用 ultralytics 包加载模型(该模型可能是在合成数据上训练的)来对图像执行推理。
from ultralytics import YOLO
# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")
# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results to verify model performance
results[0].show()Link to this section合成数据与数据增强#
区分合成数据和数据增强很有帮助,因为这两种技术虽然都旨在扩展数据集,但其运作方式不同。
- 数据增强涉及对现有真实图像应用变换——如翻转、旋转、裁剪或颜色调整——以创建细微的变化。它依赖于原始数据源。
- 合成数据涉及使用算法或模拟从零开始创建全新的数据实例。它不严格要求为每个输出提供原始图像,从而能够生成相机从未捕捉到过的场景。
Ultralytics Platform 上的现代工作流程通常结合了这两种方法:使用合成数据填补数据集中的空白,并在训练期间应用数据增强,以最大化提升像 YOLO26 这类模型的稳健性。






