术语表

神经风格转移

探索神经风格转换的力量!将内容和艺术风格与人工智能相融合,为艺术、设计等领域创造令人惊叹的视觉效果。

神经风格转换(NST)是一种创造性的、强大的计算机视觉(CV)技术,它使用深度学习算法来合并两幅图像:一幅 "内容 "图像和一幅 "风格 "参考图像。合并后的新图像保留了 "内容 "图像的核心对象和结构,但采用了 "风格 "图像的艺术风格。这种技术利用卷积神经网络(CNN)的功能,分离并重新组合图像的内容和风格元素,有效地将一幅图像 "绘制 "成另一幅图像的美学效果。

神经风格转移如何发挥作用

神经风格转换的神奇之处在于 CNN 如何处理视觉信息。一个预先训练好的网络,比如在海量ImageNet 数据集上训练过的 VGG-19,已经学会识别丰富的层次特征。网络的低层可以检测边缘和颜色等简单特征,而高层则可以识别形状和物体等更复杂的结构。

NST 利用了这种分层特征提取过程。其核心思想在论文"艺术风格的神经算法 "中首次提出,包括两个关键部分:

  1. 内容表示:为了捕捉图像的内容,需要使用 CNN 上层的激活。这些层可以理解图像中的高级排列和对象,从而提供 "内容 "蓝图。
  2. 风格表征:为了捕捉风格,我们分析了多个图层中特征反应之间的相关性。这样就能捕捉到纹理、色彩图案和艺术笔触,而不与物体的具体排列组合挂钩。

然后,这个过程会反复优化一个新的、最初随机的图像,以同时匹配内容图像的内容表示法和风格图像的风格表示法。这是通过最小化指导优化的复合损失函数来实现的。此类模型的实现通常使用PyTorchTensorFlow 等流行框架。

应用和用例

尽管 NST 因创造艺术图像而广为人知,但其应用范围也扩展到各种商业和创意领域。

  • 创意内容生成:最有名的应用是Prisma 等移动应用程序,用户可以将自己的照片变成类似名画的艺术品。这也被艺术家和设计师用来快速制作视觉风格原型。
  • 娱乐和媒体:在电影制作和视频游戏中,NST 可用于在不同场景中应用一致的视觉风格,或创建独特的视觉效果。它允许对视频逐帧进行风格化处理,这一过程可以在PyTorch 的神经风格转换指南等教程中详细了解。
  • 数据扩充:机器学习(ML)中,NST 可用作一种数据增强形式。通过在训练数据集上应用各种风格,开发人员可以创建一个对风格变化不那么敏感的更稳健的模型,从而提高其在未见数据上的泛化能力。这对训练物体检测图像分割等任务的模型尤为有用。

与其他生成技术的区别

必须将神经风格转移与其他流行的生成式人工智能方法区分开来。

  • 生成对抗网络(GANs):GANs 通过学习训练集的基础数据分布,从零开始生成新图像。相比之下,NST 并不创建新内容,而是根据特定输入图像重新组合现有内容和风格。GANs 能够为不存在的人创建逼真的人脸,这超出了传统 NST 的任务范围。
  • 文本到图像模型:Stable Diffusion和 DALL-E 等模型根据文本提示生成图像。而 NST 则需要两幅图像(内容和风格)作为输入。这些领域的现代交叉点可以在能够理解文本和图像的多模态模型中看到。
  • 图像到图像的翻译:这是一个范围更广的类别,通常由 GAN(如 Pix2Pix 或 CycleGAN)驱动,学习从输入图像到输出图像的映射(如将卫星照片转换为地图)。虽然 NST 是图像到图像翻译的一种形式,但它特别注重内容和风格的分离与转换,而其他方法可能会学习更复杂的转换。

了解Ultralytics YOLO11 等现代视觉模型中的特征提取原理,可以让我们深入了解这些技术如何区分物体的内容和外观(风格)。Ultralytics HUB等平台简化了定制模型的训练过程,这些模型可用于各种视觉任务。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板