词汇表

多模态学习

探索人工智能中多模态学习的力量！了解模型如何整合不同的数据类型，以实现更丰富、更实际的问题解决。

多模态学习是机器学习 (ML) 的一个子领域，其中 AI 模型经过训练，可以处理和理解来自多种数据类型（称为模态）的信息。正如人类通过结合视觉、听觉和语言来感知世界一样，多模态学习使 AI 能够通过整合来自图像、文本、音频和传感器读数等来源的数据，从而形成更全面和更具上下文的理解。这种方法超越了单一焦点系统，可以进行更丰富的解释和更复杂的应用，从而反映出类似人类的智能。最终目标是构建能够看、读和听的模型，以获得全面的见解。

多模态学习的工作原理

多模态学习系统旨在应对三个核心挑战：表示、对齐和融合。首先，模型必须学习每种模态的有意义的表示，通常将像素和单词等不同的数据类型转换为称为嵌入的数值向量。其次，它必须对齐这些表示，连接跨模态的相关概念——例如，将文本“一只狗接飞盘”链接到图片中相应的视觉元素。最后，它融合这些对齐的表示以做出统一的预测或生成新内容。这种融合可能发生在不同的阶段，而像 Transformer 及其注意力机制这样的架构的开发对于创建有效的融合策略至关重要。

实际应用

多模态学习是许多前沿 AI 功能背后的引擎。以下是几个突出的例子：

视觉问答 (VQA)： 在 VQA 中，会向 AI 模型提供一张图像和一个关于该图像的自然语言问题（例如，“穿红色衬衫的人在做什么？”）。模型必须同时处理来自图像的视觉信息和文本的语义含义，以提供准确的答案。这项技术用于为视障人士创建辅助工具以及用于高级内容分析。您可以浏览一个流行的 VQA 数据集以查看更多示例。
文本到图像生成： 诸如OpenAI的DALL-E 3和Stable Diffusion等生成模型是多模态学习的主要例子。它们接受文本描述（提示）并生成新的、相应的图像。这需要对语言有深刻的理解，并且能够将抽象概念转化为连贯的视觉细节，这是一项结合了NLP和生成视觉的任务。

关键区别

区分多模态学习与相关术语是有帮助的：

多模态模型： 多模态学习是使用多种数据类型训练AI的过程或研究领域。多模态模型是使用这些技术设计和训练的生成的AI系统或架构。
计算机视觉（CV）: CV 专门专注于处理和理解视觉数据。虽然像 Ultralytics YOLO11 这样的专用 CV 模型擅长于目标检测等任务，但多模态学习通过将视觉数据与其他模态集成来更进一步。
自然语言处理 (NLP): NLP 涉及理解和生成人类语言。多模态学习将语言数据与其他模态（如图像或传感器读数）集成，如在视觉语言模型中所见。
基础模型（Foundation Models）： 这些是在海量数据上预训练的大规模模型。许多现代基础模型，如GPT-4，本质上是多模态的，但这些概念是不同的。多模态学习是一种方法，通常用于构建这些强大的模型，斯坦福大学CRFM等机构正在研究这些模型。

挑战和未来方向

多模态学习提出了独特的挑战，包括有效地对齐来自不同来源的数据、开发最佳融合策略以及处理缺失或嘈杂的数据。应对这些多模态学习中的挑战仍然是一个活跃的研究领域。该领域正在迅速发展，将边界推向更像人类一样感知和推理世界的 AI 系统，从而可能有助于通用人工智能 (AGI) 的发展。虽然像 Ultralytics HUB 这样的平台目前主要促进专注于计算机视觉任务的工作流程，但更广泛的 AI 格局表明多模态能力的集成正在增加。请关注 Ultralytics 博客，以获取使用 PyTorch 和 TensorFlow 等框架开发的新模型功能的更新。

多模态学习

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

多模态学习的工作原理

实际应用

关键区别

挑战和未来方向

阅读更多此类别的内容

如何训练人工智能模型的初学者快速指南

来自迪拜的真知灼见：2025 年 GDG 中东和北非峰会的主要收获

探索集合学习及其在人工智能和 ML 中的作用

加入 Ultralytics 社区