术语表

生成对抗网络(GAN)

了解 GAN 如何通过生成逼真图像、增强数据以及推动医疗保健、游戏等领域的创新,彻底改变人工智能。

生成对抗网络(GAN)是一类功能强大的生成式人工智能模型,擅长创建模仿真实数据给定分布的新合成数据。GAN 由伊恩-古德费洛(Ian Goodfellow)和他的同事于 2014 年首次提出,它在两个相互竞争的神经网络(生成器和判别器)之间采用了一种巧妙的对抗过程。这种竞争性动态使 GANs 能够产生高度逼真的输出,从图像和文本到音乐和 3D 模型,使其成为现代深度学习的基石。

GAN 如何工作

GAN 的核心理念是在零和游戏中同时训练两个模型。

  1. 生成器:该网络的工作是创建虚假数据。它将随机噪音作为输入,并尝试将其转化为样本,使其看起来像是来自原始训练数据。例如,它可能会尝试生成一个逼真的人脸图像。
  2. 鉴别者:该网络充当评论家或侦探的角色。它的目标是区分真实数据(来自训练集)和生成器生成的虚假数据。鉴别器会输出一个概率,表明它认为输入样本真实的可能性有多大。

训练过程中,生成器不断尝试更好地欺骗判别器,而判别器则努力提高识别假数据的能力。在反向传播的驱动下,这一对抗过程一直持续到生成器生成的样本让鉴别器无法再将其与真实数据区分开来为止,从而达到一种被称为纳什均衡的状态。

实际应用

全球网络已在各行各业实现了广泛的创新应用。

  • 合成数据生成:GANs 最重要的用途之一是创建高质量的人工数据,以增强真实数据集。例如,在自动驾驶汽车的开发过程中,GANs 可以生成逼真的道路场景,包括现实世界中难以捕捉的罕见和危险场景。这有助于提高物体检测模型(如Ultralytics YOLO11)的鲁棒性,而无需收集大量真实世界的数据。
  • 图像和艺术生成:GANs 以其创造新颖逼真图像的能力而闻名。英伟达™(NVIDIA®)公司的StyleGAN等项目可以为不存在的人生成极其逼真的人脸。这项技术还可用于艺术创作,使艺术家能够创作出独一无二的作品,也可用于时尚界设计新的服装款式。
  • 图像到图像的转换:GAN 可以学习不同领域图像之间的映射。例如,可以训练模型将卫星图像转化为地图,将草图转化为逼真图像,或将白天的照片转化为夜景。
  • 面部老化和编辑:应用程序使用 GAN 来逼真地预测一个人的面部随着时间的推移会如何衰老,或进行编辑,如改变发色、添加微笑或改变面部表情,这在娱乐和取证方面都有应用。

GAN 与其他生成模型的比较

GAN 是生成模型大家族中的一员,但它们具有鲜明的特点。

  • 扩散模型扩散模型(如稳定扩散模型)通常能提供更稳定的训练,并能产生比 GAN 更高质量、更多样化的样本。不过,这往往要以较慢的推理延迟为代价。
  • 自编码器变异自编码器(VAE)是另一种生成模型。虽然 GANs 和 VAEs 都能生成数据,但 GANs 以生成更清晰、更真实的输出而著称,而 VAEs 通常更擅长创建结构化、可解释的潜在空间。

挑战与进步

由于存在多种挑战,训练 GANs 的难度可想而知:

  • 模式崩溃:当生成器发现少数几个输出能非常有效地骗过判别器时,就会出现这种情况,生成器只能生成这些有限的变化,而无法捕捉到训练数据的全部多样性。谷歌的研究人员对这一问题进行了深入探讨。
  • 训练不稳定:GANs 的竞争性可能会导致训练不稳定,即两个网络无法顺利收敛。这可能是由梯度消失问题等问题引起的。
  • 评估困难:量化生成样本的质量和多样性并非易事。目前使用的指标有初始分数 (IS)弗雷谢特初始距离 (FID ),但这些指标都有其局限性。

为了克服这些问题,研究人员开发了许多 GAN 变体,例如稳定性更好的 Wasserstein GAN(WGAN)和可控性更强的条件 GAN(cGAN)。GANs 的开发仍然是人工智能研究的一个活跃领域,PyTorchTensorFlow等框架中的强大工具使开发人员更容易获得 GANs。在管理更广泛的 ML 工作流程方面,Ultralytics HUB等平台有助于简化数据管理和模型部署。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板