深圳Yolo 视觉
深圳
立即加入
词汇表

扩散模型

探索扩散模型如何利用生成式 AI 创建高保真数据。立即学习如何利用逼真的合成数据增强 Ultralytics YOLO26 训练。

扩散模型是一类生成式AI算法,它通过逆转渐进的噪声添加过程来学习创建新的数据样本。与用于目标检测或分类等任务的传统判别模型(从数据中预测标签)不同,扩散模型专注于生成高保真内容——最显著的是图像、音频和视频——这些内容紧密模拟真实世界数据的统计特性。由于其训练稳定性和生成多样化输出的能力,它们已迅速成为高分辨率图像合成的最先进解决方案,超越了生成对抗网络 (GANs)等之前的领导者。

扩散模型的工作原理

扩散模型的核心机制基于非平衡态热力学。训练过程涉及两个不同的阶段:前向过程(扩散)和逆向过程(去噪)。

  • 前向过程:此阶段通过在一系列时间步长内添加少量高斯噪声,系统地破坏训练图像的结构。随着过程的进行,复杂数据(如猫的照片)逐渐转化为纯粹、非结构化的随机噪声。
  • 逆向过程:神经网络的目标是学习如何逆转这种损坏。从随机噪声开始,模型预测每一步添加的噪声并将其减去。通过迭代去除噪声,模型“去噪”随机信号,直到出现连贯、高质量的图像。

这种迭代细化能够对细节和纹理进行卓越控制,这相对于单步生成方法是一个显著优势。

实际应用

扩散模型已从学术研究领域走向实际应用,成为各行业中的生产级工具。

  • 合成数据生成:对于计算机视觉工程师而言,最有价值的应用之一是创建合成数据以扩充训练数据集。如果数据集缺乏多样性(例如,缺少雪地条件下的汽车图像),扩散模型可以生成逼真的变体。这有助于提高像YOLO26这样的视觉模型在不可预测环境中部署时的鲁棒性。
  • 图像修复与编辑:扩散模型为高级编辑工具提供支持,允许用户 修改图像的特定区域。这种被称为图像修复的技术,可以根据周围上下文移除不需要的物体或填充 照片中缺失的部分。建筑师和设计师利用此技术进行快速原型设计, 无需手动 3D 渲染即可可视化产品或环境的变化。

区分关键术语

区分扩散模型与其他生成式架构有助于理解:

  • 扩散模型与GANs:虽然GANs使用两个相互竞争的网络(生成器和判别器)并以快速采样而闻名,但它们常遭受“模式崩溃”问题,即模型产生有限种类的输出。扩散模型在训练期间通常更稳定,并且更全面地覆盖数据分布,尽管它们在推理时可能较慢。
  • 扩散模型与VAEs:变分自编码器(VAEs)将数据压缩到潜在空间,然后进行重建。虽然VAEs速度快,但其生成的图像有时会显得模糊,不如扩散过程产生的细节清晰。

具体实施

虽然从头开始训练扩散模型需要大量计算,但工程师可以利用预训练模型或将其与高效 detect 器集成到工作流中。例如,您可以使用扩散模型为数据集生成背景变化,然后使用Ultralytics Platform在该增强数据上注释并训练 detect 模型。

下面是一个概念性示例,演示如何使用 torch 模拟一个简单的正向扩散步骤(添加噪声),这是训练这些系统的基础。

import torch


def add_noise(image_tensor, noise_level=0.1):
    """Simulates a single step of the forward diffusion process by adding Gaussian noise."""
    # Generate Gaussian noise with the same shape as the input image
    noise = torch.randn_like(image_tensor) * noise_level

    # Add noise to the original image
    noisy_image = image_tensor + noise

    # Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
    return torch.clamp(noisy_image, 0.0, 1.0)


# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)

print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")

未来发展方向

该领域正快速发展,趋向于潜在扩散模型(LDMs),它们在压缩的潜在空间而非像素空间中操作,以降低计算成本。这种效率使得在消费级硬件上运行强大的生成模型成为可能。随着研究的深入,我们期望生成输入和判别任务之间更紧密的集成,例如,使用扩散生成的场景来验证自动驾驶汽车的安全性,或通过模拟罕见病理来改进医学图像分析

让我们一起共建AI的未来!

开启您的机器学习未来之旅