词汇表

多模态模型

了解多模态AI模型如何整合文本、图像等多种数据，从而创建适用于实际应用的强大、通用的系统。

多模态模型是一种人工智能系统，可以同时处理和理解来自多种数据类型（或“模态”）的信息。与可能只处理文本或图像的传统模型不同，多模态模型可以一起解释文本、图像、音频和其他数据源，从而实现更全面、更像人类的理解。这种整合不同数据流的能力是朝着更高级和具有上下文感知能力的人工智能系统迈出的重要一步，能够处理需要从多个角度理解世界的复杂任务。这种方法对于人工智能在我们的日常生活中的未来至关重要。

多模态模型的工作原理

多模态模型的核心创新在于其架构，该架构旨在查找和学习不同数据类型之间的关系。实现这一目标的关键技术是Transformer架构，最初在开创性的论文“Attention Is All You Need.”中有详细说明。此架构使用注意力机制来衡量输入数据不同部分的重要性，无论是句子中的单词还是图像中的像素。该模型学习创建共享表示或嵌入，从而在公共空间中捕获来自每种模态的含义。

这些复杂的模型通常是使用强大的深度学习 (DL)框架构建的，例如 PyTorch 和 TensorFlow。训练过程包括向模型输入大量的数据集，其中包含配对数据，例如带有文本说明的图像，从而使其能够学习模态之间的联系。

实际应用

多模态模型已经为各种创新应用提供支持。以下是两个突出的例子：

视觉问答 (VQA)： 用户可以向模型提供图像，并用自然语言提问，例如“桌子上是什么类型的花？”。该模型处理视觉信息和文本查询，以提供相关的答案。这项技术在教育和视障人士的辅助工具等领域具有巨大的潜力。
文本到图像生成： 诸如OpenAI的DALL-E 3和Midjourney等模型接受文本提示（例如，“日落时分的未来城市景观，有飞行汽车”），并生成与描述相匹配的独特图像。这种形式的生成式AI正在彻底改变从营销到游戏设计等创意产业。

关键概念和区别

理解多模态模型需要熟悉以下相关概念：

多模态学习: 这是机器学习 (ML)的一个子领域，专注于开发用于训练多模态模型的算法和技术。它解决了数据对齐和融合策略等挑战，这些挑战经常在学术论文中讨论。简而言之，多模态学习是过程，而多模态模型是结果。
基础模型: 许多现代基础模型，例如GPT-4，本质上是多模态的，能够处理文本和图像。这些大型模型可以作为微调以适应特定任务的基础。
大型语言模型 (LLM): 虽然相关，但 LLM 传统上侧重于文本处理。多模态模型更广泛，明确设计用于处理和集成来自语言之外的不同数据类型的信息。然而，随着视觉语言模型 (VLM)的兴起，界限变得模糊。
专用视觉模型： 多模态模型不同于像计算机视觉 (CV) 这样的专用模型，例如 Ultralytics YOLO。虽然像 GPT-4 这样的多模态模型可能会描述图像（“有一只猫坐在垫子上”），但 YOLO 模型擅长目标检测或实例分割，使用边界框或像素掩码精确定位猫。这些模型可以是互补的；YOLO 识别物体所在的位置，而多模态模型可能会解释场景或回答有关它的问题。查看不同 YOLO 模型之间的比较。

开发和部署这些模型通常涉及诸如 Ultralytics HUB 等平台，这些平台可以帮助管理数据集和模型训练工作流程。桥接不同数据类型的能力使多模态模型成为迈向更全面的 AI 的一步，从而可能有助于未来的通用人工智能 (AGI)。

多模态模型

训练 Ultralytics YOLO 模型，以简化各行业的流程

灵活的企业许可解决方案，助力您的创新

使用 Ultralytics YOLO 在几秒钟内训练 AI 模型

多模态模型的工作原理

实际应用

关键概念和区别

阅读更多此类别的内容

视觉人工智能为驾驶员注意力监控系统提供动力

从比特到量子比特：量子优化如何重塑人工智能

如何训练人工智能模型的初学者快速指南

加入 Ultralytics 社区