术语表

稳定扩散

探索稳定扩散(Stable Diffusion),这是一种尖端的人工智能模型,可根据文字提示生成逼真的图像,彻底改变创造力和效率。

稳定扩散(StableDiffusion)是稳定 人工智能公司(Stability AI)于 2022 年发布的一个强大而流行的开源生成式人工智能模型。它的主要特点是能够从简单的文本描述中创建详细、高质量的图像,这一过程被称为文本到图像的合成(text-to-imagesynthesis)。作为一个潜在扩散模型,它代表了一个重大进步,使更多的开发人员、艺术家和研究人员可以使用高性能图像生成技术,因为它具有开源性质,而且与其他大规模模型相比,计算要求相对较低。

稳定扩散的工作原理

稳定扩散模型的核心原理是扩散过程。该模型首先通过获取大量图像并逐步添加 "噪音"(随机静态)来进行训练,直到原始图像完全模糊为止。然后,它将学习如何逆转这一过程,从纯噪声开始,逐步去噪,以形成与给定文本提示相匹配的连贯图像。

稳定扩散模型之所以特别高效,是因为它是在低维 "潜在空间 "而非像素的高维空间中执行这一扩散过程。这种方法在最初的潜在扩散模型研究论文中已有概述,大大降低了训练推理所需的计算能力,使模型可以在消费级GPU 上运行。该模型使用文本编码器(如CLIP)来解释用户的文本提示,并引导去噪过程朝理想图像的方向发展。

稳定扩散与其他生成模型的比较

稳定扩散模型以其独特的特征从其他著名的生成模型中脱颖而出:

  • 与 DALL-E 和 Midjourney 相比:虽然OpenAI 的 DALL-E 3Midjourney等模型能产生令人惊叹的结果,但它们都是专有的,而且主要是作为付费服务提供的。Stable Diffusion 的主要优势在于开源。这使得任何人都可以下载该模型,检查其架构,并根据特定目的在定制数据集上对其进行微调,而无需获得许可。
  • 与生成对抗网络(GANs)相比 生成对抗网络(GAN)是另一类生成模型。扩散模型(如稳定扩散模型)通常能提供更稳定的训练,并能生成更多样的高保真图像。然而,GAN 有时生成图像的速度更快,因为它们通常只需要一次前向传递。

实际应用

稳定扩散的灵活性和易用性使其被众多领域所采用。

  • 创意艺术与娱乐:艺术家和设计师使用 Stable Diffusion 制作概念图、故事板和创建独特的视觉资产。例如,游戏开发人员可以在几分钟内生成几十个角色概念或环境背景,大大加快了创意工作流程。Adobe Firefly等工具也集成了类似的生成技术,以增强创意软件套件的功能。
  • 合成数据生成:计算机视觉领域,高质量的训练数据至关重要。稳定扩散技术可以生成大量逼真的合成数据,以增强真实世界的数据集。例如,为了改进Ultralytics YOLO物体检测模型,开发人员可以生成各种光照条件、方向和设置下的物体图像,从而提高模型的鲁棒性和准确性,特别是对于稀有物体类别。

发展与生态系统

丰富的工具和库生态系统为使用 Stable Diffusion 提供了便利。PyTorch等框架是其运行的基础。Hugging Face Diffusers 库已成为轻松下载、运行和实验稳定扩散及其他扩散模型的标准。Stable Diffusion 擅长生成,而Ultralytics HUB等平台则为更广泛的机器学习生命周期提供了全面的环境,包括管理数据集和部署用于图像分割和分类等任务的人工智能判别模型。这种功能强大的生成工具的兴起也将围绕人工智能伦理的重要讨论推到了前沿,包括制造深度伪造和强化算法偏见的可能性。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板