Diffusion Models
探索扩散模型 (Diffusion Models) 如何利用生成式 AI 创建高保真数据。立即学习如何通过逼真的合成数据增强 Ultralytics YOLO26 训练。
扩散模型是一类生成式 AI算法,通过逆转逐渐添加噪声的过程来学习创建新的数据样本。与用于目标检测或分类等任务并从数据中预测标签的传统判别模型不同,扩散模型专注于生成能够紧密模拟现实世界数据统计特性的高保真内容(最显著的是图像、音频和视频)。它们已迅速成为高分辨率图像合成的最先进解决方案,由于其训练稳定性和生成多样化输出的能力,已超越了生成对抗网络 (GANs) 等之前的领先技术。
Link to this section扩散模型的工作原理#
扩散模型的核心机制基于非平衡热力学。训练过程包含两个截然不同的阶段:前向过程(扩散)和反向过程(去噪)。
- 前向过程: 此阶段通过在一系列时间步长内添加少量高斯噪声来系统地破坏训练图像的结构。随着过程的继续,复杂数据(如猫的照片)逐渐转变为纯粹的非结构化随机噪声。
- 反向过程: 神经网络的目标是学习如何逆转这种破坏。模型从随机噪声开始,预测每一步添加的噪声并将其减去。通过迭代去除噪声,模型对随机信号进行“去噪”,直到出现连贯、高质量的图像。
这种迭代细化允许对细节和纹理进行出色的控制,这是优于单步生成方法的一大优势。
Link to this section实际应用#
扩散模型已从学术研究领域转向各行业的实用型生产级工具。
- 合成数据生成: 对计算机视觉工程师来说,最有价值的应用之一是创建合成数据以增强训练数据集。如果数据集缺乏多样性(例如,缺少雪地场景下的汽车图像),扩散模型可以生成逼真的变体。这有助于提高YOLO26等视觉模型在不可预测环境中部署时的鲁棒性。
- 图像修复与编辑: 扩散模型支持先进的编辑工具,允许用户修改图像的特定区域。这种称为修复(inpainting)的技术可以根据周围的上下文删除不需要的对象或填充照片中缺失的部分。建筑师和设计师利用此功能进行快速原型设计,无需手动 3D 渲染即可可视化产品或环境的变更。
Link to this section区分关键术语#
将扩散模型与其他生成式架构区分开来很有帮助:
- 扩散模型与 GANs 的对比: 虽然 GANs 使用两个相互竞争的网络(生成器和判别器)且以快速采样而闻名,但它们经常遭受“模式坍塌”(mode collapse)的困扰,即模型输出的种类有限。扩散模型在训练期间通常更稳定,并且能更全面地覆盖数据分布,尽管它们在推理时可能较慢。
- 扩散模型与 VAEs 的对比: 变分自编码器 (VAEs) 将数据压缩到潜在空间,然后进行重构。虽然 VAEs 的速度很快,但与扩散过程产生的清晰细节相比,它们生成的图像有时看起来会显得模糊。
Link to this section实际实施#
虽然从零开始训练扩散模型需要大量的计算资源,但工程师可以利用预训练模型或将其集成到高效检测器的工作流程中。例如,你可以使用扩散模型为数据集生成背景变化,然后使用 Ultralytics Platform 对这些增强后的数据进行标注并训练检测模型。
下面是一个使用 torch 模拟简单前向扩散步骤(添加噪声)的概念示例,这是训练这些系统的基础。
import torch
def add_noise(image_tensor, noise_level=0.1):
"""Simulates a single step of the forward diffusion process by adding Gaussian noise."""
# Generate Gaussian noise with the same shape as the input image
noise = torch.randn_like(image_tensor) * noise_level
# Add noise to the original image
noisy_image = image_tensor + noise
# Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
return torch.clamp(noisy_image, 0.0, 1.0)
# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)
print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")Link to this section未来方向#
该领域正迅速向潜在扩散模型 (LDMs) 发展,这种模型在压缩的潜在空间而非像素空间中运行,以降低计算成本。这种效率使得在消费级硬件上运行强大的生成模型成为可能。随着研究的深入,我们预计生成式输入与判别任务之间的集成将更加紧密,例如使用扩散生成的场景来验证自动驾驶车辆的安全性,或通过模拟罕见病理来改进医学图像分析。






