敬请关注 YOLO Vision 2025!
2025年9月25日
英国夏令时 10:00 - 18:00
混合活动
Yolo Vision 2024
词汇表

多模态学习

探索人工智能中多模态学习的力量!了解模型如何整合不同的数据类型,以实现更丰富、更实际的问题解决。

多模态学习是 机器学习 (ML) 的一个子领域,其中 AI 模型经过训练,可以处理和理解来自多种数据类型(称为模态)的信息。正如人类通过结合视觉、听觉和语言来感知世界一样,多模态学习使 AI 能够通过整合来自图像、文本、音频和传感器读数等来源的数据,从而形成更全面和更具上下文的理解。这种方法超越了单一焦点系统,可以进行更丰富的解释和更复杂的应用,从而反映出类似人类的智能。最终目标是构建能够看、读和听的模型,以获得全面的见解。

多模态学习的工作原理

多模态学习系统旨在应对三个核心挑战:表示、对齐和融合。首先,模型必须学习每种模态的有意义的表示,通常将像素和单词等不同的数据类型转换为称为 嵌入 的数值向量。其次,它必须对齐这些表示,连接跨模态的相关概念——例如,将文本“一只狗接飞盘”链接到图片中相应的视觉元素。最后,它融合这些对齐的表示以做出统一的预测或生成新内容。这种融合可能发生在不同的阶段,而像 Transformer 及其 注意力机制 这样的架构的开发对于创建有效的融合策略至关重要。

实际应用

多模态学习是许多前沿 AI 功能背后的引擎。以下是几个突出的例子:

  1. 视觉问答 (VQA): 在 VQA 中,会向 AI 模型提供一张图像和一个关于该图像的自然语言问题(例如,“穿红色衬衫的人在做什么?”)。模型必须同时处理来自图像的视觉信息和文本的语义含义,以提供准确的答案。这项技术用于为视障人士创建辅助工具以及用于高级内容分析。您可以浏览一个流行的 VQA 数据集 以查看更多示例。
  2. 文本到图像生成: 诸如OpenAI的DALL-E 3Stable Diffusion等生成模型是多模态学习的主要例子。它们接受文本描述(提示)并生成新的、相应的图像。这需要对语言有深刻的理解,并且能够将抽象概念转化为连贯的视觉细节,这是一项结合了NLP和生成视觉的任务。

关键区别

区分多模态学习与相关术语是有帮助的:

  • 多模态模型 多模态学习是使用多种数据类型训练AI的过程研究领域。多模态模型是使用这些技术设计和训练的生成的AI系统或架构。
  • 计算机视觉(CV): CV 专门专注于处理和理解视觉数据。 虽然像 Ultralytics YOLO11 这样的专用 CV 模型擅长于 目标检测等任务,但多模态学习通过将视觉数据与其他模态集成来更进一步。
  • 自然语言处理 (NLP): NLP 涉及理解和生成人类语言。多模态学习将语言数据与其他模态(如图像或传感器读数)集成,如在视觉语言模型中所见。
  • 基础模型(Foundation Models) 这些是在海量数据上预训练的大规模模型。许多现代基础模型,如GPT-4,本质上是多模态的,但这些概念是不同的。多模态学习是一种方法,通常用于构建这些强大的模型,斯坦福大学CRFM等机构正在研究这些模型。

挑战和未来方向

多模态学习提出了独特的挑战,包括有效地对齐来自不同来源的数据、开发最佳融合策略以及处理缺失或嘈杂的数据。应对这些 多模态学习中的挑战 仍然是一个活跃的研究领域。该领域正在迅速发展,将边界推向更像人类一样感知和推理世界的 AI 系统,从而可能有助于 通用人工智能 (AGI) 的发展。虽然像 Ultralytics HUB 这样的平台目前主要促进专注于计算机视觉任务的工作流程,但更广泛的 AI 格局表明多模态能力的集成正在增加。请关注 Ultralytics 博客,以获取使用 PyTorchTensorFlow 等框架开发的新模型功能的更新。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入
链接已复制到剪贴板