深圳尤洛视觉
深圳
立即加入
词汇表

扩散模型

了解扩散模型如何通过创建具有无与伦比的细节和稳定性的逼真图像、视频和数据来彻底改变生成式 AI。

扩散模型是一类生成模型,已成为现代 生成式 AI 的基石。它们旨在创建与训练数据相似的新数据,例如图像或声音。其核心思想受到热力学的启发。该模型学习逆转一个逐渐向图像添加噪声直到它变成纯静态的过程。通过学习这种“去噪”过程,该模型可以从随机噪声开始,并逐步将其细化为连贯的高质量样本。这种逐步细化过程是它们生成高度详细和逼真输出的关键。

扩散模型如何工作?

扩散模型背后的过程主要包括两个阶段:

  1. 前向过程(扩散): 在这个阶段,通过在许多步骤中添加少量高斯噪声,系统地降低清晰图像的质量。这个过程一直持续到图像与纯噪声无法区分。这个前向过程是固定的,不涉及任何学习;它只是为模型提供了一个学习逆转的目标。
  2. 反向过程(去噪):这是学习发生的地方。一个神经网络经过训练,可以从正向过程中获取噪声图像,并预测在上一步中添加的噪声。通过重复减去这个预测的噪声,模型可以从完全随机的图像(纯噪声)开始,并逐渐将其转换回清晰的图像。这种学习到的去噪过程使得模型可以从头开始生成新数据。基础论文“去噪扩散概率模型”为这种方法奠定了基础。

扩散模型与其他生成模型的比较

扩散模型与其他流行的生成方法(如 生成对抗网络 (GAN))显着不同。

  • 训练稳定性: 与 GAN 相比,扩散模型通常具有更稳定的训练过程。GAN 涉及生成器和判别器之间复杂的对抗性博弈,有时难以平衡并且可能无法收敛。
  • 样本质量和多样性: 虽然两者都可以产生高质量的结果,但扩散模型通常擅长生成高度多样化和照片般逼真的图像,有时在某些基准测试中优于GAN。然而,这种质量可能会以更高的推理延迟为代价。
  • 推理速度: 传统上,扩散模型在生成样本时速度较慢,因为它们需要许多迭代去噪步骤。 相比之下,GAN 可以在单个前向传递中生成样本。 然而,积极的研究和诸如知识蒸馏之类的技术正在迅速缩小这种速度差距。

实际应用

扩散模型正在推动各个领域的新一轮创造力和创新:

  • 高保真图像生成: 这是最广为人知的应用。由 Stability AIOpenAI 等公司开发的模型可以通过简单的文本提示创建令人惊叹的逼真和艺术图像。 突出的例子包括 Stable DiffusionDALL-E 3Midjourney 和 Google 的 Imagen。 这些工具已经改变了数字艺术和内容创作。
  • 图像编辑和修复: 它们不仅仅用于从头开始创建图像。扩散模型可以根据指令智能地修改现有图像,例如添加或删除对象、更改艺术风格或填充照片中缺失的部分(图像修复)。像 Adobe Firefly 这样的工具就利用了这些功能。
  • 音频和视频合成: 扩散原理也适用于其他数据类型。 像 AudioLDM 这样的模型可以生成逼真的语音、音乐和声音效果,而像 OpenAI 的 Sora 这样的模型正在突破文本到视频生成的界限。
  • 数据增强:计算机视觉中,扩散模型可用于生成合成训练数据。 这对于提高Ultralytics YOLO等模型在目标检测图像分割等任务中的鲁棒性特别有用,尤其是在现实世界数据稀缺时。

工具与开发

开发和使用扩散模型通常涉及像 PyTorchTensorFlow 这样的 机器学习 框架。为了简化开发,像 Hugging Face Diffusers 库 这样的库提供了预训练的模型和工具。虽然这些工具侧重于生成模型本身,但像 Ultralytics HUB 这样的平台可以帮助管理更广泛的工作流程,包括数据集管理和部署,从而补充了全面 AI 解决方案的开发。随着这些模型变得越来越普及,考虑 AI 伦理 并解决像 算法偏差 这样的挑战至关重要。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板