术语表

深度伪造

了解从娱乐到错误信息等深度伪造的技术、应用和道德问题。了解检测和人工智能解决方案。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

深度伪造是指利用先进的人工智能(AI)机器学习(ML)技术,特别是深度学习(DL)技术,合成或篡改出的高度逼真的视频、图像或音频记录。该术语是 "深度学习 "和 "伪造 "的谐音。这些技术可以令人信服地替换或合成人脸、声音和动作,让人觉得某人说了或做了他们实际上从未说过或做过的事。深度伪造技术源于网络社区,但发展迅速,既带来了创造性机遇,也带来了重大的道德挑战。

深度伪造是如何产生的

许多深度伪造背后的核心技术涉及生成对抗网络(GAN)。生成对抗网络由两个相互竞争的神经网络组成:一个是生成器,用于生成虚假内容(例如,人脸互换的图像);另一个是鉴别器,用于区分真假内容。通过反复训练,生成器会越来越擅长制作逼真的假图像,从而骗过鉴别器,最终骗过人类观察者。自动编码器是另一种常用技术,它从大型数据集中学习人脸的压缩表示(编码),然后解码这些表示,将人脸重建或交换到目标视频上。制作令人信服的深度伪造视频通常需要大量的训练数据(目标人物的图像或视频剪辑)和大量的 GPU计算资源,通常通过Ultralytics HUB 等平台进行管理。

应用与实例

Deepfake 技术的应用范围很广,既有有益用途,也有恶意活动:

  • 娱乐和媒体:在电影制作中用于为演员减龄、再现历史人物,或通过改变唇部动作来改进配音,使其与翻译后的音频相匹配。例如,电影制作人在 曼陀罗人中使用了深度伪造技术,通过数字技术再现了年轻版本的演员。另一个例子是Synthesia,这是一个利用人工智能化身创建培训视频和演示文稿的平台,可有效生成合成视频内容。
  • 教育和无障碍环境:为教育目的创建虚拟导师或让历史人物栩栩如生。声音克隆可以帮助失声者。
  • 合成数据生成:创建用于训练其他 ML 模型的人工数据集,尤其是在计算机视觉领域,因为真实数据可能比较稀缺或敏感。这有助于提高模型的鲁棒性,如 Ultralytics YOLO11等模型稳健性。
  • 造谣和恶意:传播政治虚假信息、制造虚假名人代言或丑闻、生成未经同意的色情内容,以及通过冒名顶替实施欺诈(例如,通过语音伪造来授权交易)。这些都引起了人们对人工智能伦理数据隐私的严重关切。

深度伪造检测

深度伪造的兴起促进了对检测方法的研究。这些方法通常涉及训练 ML 模型,以识别生成内容中细微的不一致或伪造特征,例如不寻常的眨眼模式、不自然的面部表情或光照或阴影中的不一致。计算机视觉 (CV)技术是这项工作的核心。然而,检测是一场持续的军备竞赛,因为深度伪造生成技术不断改进,以逃避检测。像 Meta AI 的Deepfake Detection Challenge (DFDC)这样的组织和一些公司(如 Microsoft等组织和微软等公司的倡议,旨在推动检测技术的发展。标准基准数据集对于开发和评估这些检测模型至关重要。

与其他媒体操纵的区别

深度伪造与传统的照片或视频编辑(如使用 Adobe Photoshop 或 After Effects)不同,主要在于它们使用深度学习,根据学习到的模式生成全新、逼真的视觉或音频元素,而不是仅仅通过手动或更简单的算法改变现有像素。图像识别侧重于识别图像中的物体或特征,而深度伪造技术则侧重于合成可信的图像或视频。它代表了生成式人工智能在视觉领域的复杂应用。滥用的可能性凸显了负责任的人工智能开发和提高公众意识的重要性。

阅读全部