深圳Yolo 视觉
深圳
立即加入
词汇表

合成数据

探索合成数据如何赋能人工智能与机器学习。了解如何Ultralytics 生成高质量数据集,即刻提升模型准确性。

合成数据是人工生成信息,其统计特性、模式及结构特征均模拟真实世界数据。在人工智能(AI) 与机器学习(ML)等快速发展的领域中,当真实数据的采集成本高昂、耗时或受隐私法规限制时,合成数据便成为关键资源。 与从现实事件中采集的有机数据不同,合成数据通过计算机模拟和先进生成模型等技术算法生成。Gartner行业分析师预测,到2030年合成数据将在AI模型中超越真实数据,从根本上改变智能系统的构建与部署方式。

合成数据在人工智能发展中的作用

使用合成数据集的主要驱动力在于克服传统数据采集与标注固有的局限性。训练稳健的计算机视觉(CV)模型通常需要包含多样化场景的海量数据集。当现实世界数据稀缺时——例如罕见病诊断或危险边缘案例的交通事故——合成数据便能填补这一缺口。

生成这些数据使开发者能够按需创建标注精确的训练数据集。这包括用于目标检测的精准边界框,以及用于语义分割的像素级精确遮罩,从而消除了人工标注过程中常见的人为失误。此外,该技术通过允许工程师有意识地平衡数据集中代表性不足的群体或环境条件,有效解决了人工智能中的偏见问题,确保模型性能更具公平性。

实际应用

合成数据正在彻底改变那些以数据隐私、安全性和可扩展性为首要考量的重要行业。

为视觉人工智能生成合成数据

创建高质量合成数据通常涉及两种主要方法:仿真引擎 和生成式人工智能。仿真引擎(如Unity引擎)利用3D图形技术,通过基于物理的照明和纹理渲染场景。而生成式模型对抗性生成网络GANs和 扩散模型 则通过学习真实数据的分布规律,合成具有照片级真实感的新数据样本。

生成合成数据集后,即可用于训练高性能模型。以下Python 示例 演示了如何使用 加载模型——该模型可能是在合成数据上训练的。 ultralytics 用于 对图像进行推理的包。

from ultralytics import YOLO

# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")

# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results to verify model performance
results[0].show()

合成数据 vs. 数据增强

区分合成数据与数据增强是有益的, 因为这两种技术都旨在扩展数据集, 但运作方式不同。

  • 数据增强是指对现有真实世界图像进行变换操作——例如翻转、旋转、裁剪或颜色调整——以产生细微差异。该过程依赖原始数据源。
  • 合成数据是指通过算法或模拟从零开始创建全新的数据实例。它并不严格要求每个输出都需要原始图像,从而能够生成从未被相机捕捉过的场景。

Ultralytics 上的现代工作流通常同时采用两种方法:利用合成数据填补数据集中的缺失部分,并在训练过程中应用数据增强技术,以最大程度提升YOLO26等模型的鲁棒性。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入