术语表

多模态人工智能

探索多模态人工智能--系统处理和理解文本、图像和音频等各种数据的领域。了解其工作原理并探索关键应用。

多模态人工智能(Multimodal AI)是指人工智能(AI)的一个领域,在这个领域中,系统可以处理、理解和推理来自多种类型数据(称为模态)的信息。传统的人工智能系统通常只关注单一数据类型(如只有文本或只有图像),而多模态人工智能则不同,它能整合和解释文本、图像、音频、视频甚至传感器数据等多种数据源。这种方法能让人工智能更全面、更像人类地了解世界,就像人类使用视觉、听觉和语言来感知周围环境一样。这一领域的核心挑战不仅仅是处理每一种模式,而是有效地将它们结合起来,以创造出统一的、语境丰富的解释。

多模态人工智能如何工作

开发多模态人工智能系统涉及几个关键步骤。首先,模型必须为每种数据类型创建有意义的数字表示,这一过程通常涉及创建嵌入。例如,文本输入由语言模型处理,图像由计算机视觉(CV)模型处理。下一个关键步骤是融合,将这些不同的表征结合起来。融合技术包括从简单的连接到涉及注意力机制的更复杂的方法,后者允许模型权衡不同模式对特定任务的重要性。

Transformer架构在极具影响力的论文"Attention Is All You Need "中介绍过,是现代多模态系统取得成功的基础。它能够处理顺序数据并捕捉远距离依赖关系,因此在整合不同来源的信息时非常有效。PyTorchTensorFlow等领先的框架为构建和训练这些复杂的模型提供了必要的工具。

实际应用

多模态人工智能正在为新一代智能应用提供动力,使其更加通用和直观。

  1. 视觉问题解答(VQA):在视觉问题解答系统中,用户可以呈现一幅图像,并用自然语言提出相关问题,例如 "街上的汽车是什么颜色的?人工智能必须理解文本,分析视觉信息,并生成相关答案。这项技术可用于为视障人士创建无障碍工具,并增强互动学习平台的功能。

  2. 文本到图像生成OpenAI 的 DALL-E 3Stability AI 的 Stable Diffusion等平台是多模态人工智能的杰出范例。它们采用文本描述(提示)并生成相应的图像。这就要求模型深入理解语言概念如何转化为视觉属性,从而实现新形式的数字艺术和内容创作

多模态人工智能与相关概念

必须将多模态人工智能与类似术语区分开来:

  • 多模态模型多模态人工智能是一个广泛的研究领域,而多模态模型则是利用多模态人工智能原理创建的特定系统或架构(例如,带有视觉功能的GPT-4)。
  • 多模态学习这是指机器学习(ML)的一个子领域,侧重于用于训练多模态模型的算法和方法。这是一门技术学科,它使多模态人工智能成为可能。
  • 大型语言模型(LLM)传统的 LLM 是单模态的(纯文本),而现在许多现代基础模型都是多模态的,将文本与其他数据类型整合在一起。这些先进的系统通常被称为视觉语言模型(VLM)
  • 专业视觉模型:多模态系统可以描述图像("一只狗在抓飞盘"),但Ultralytics YOLO这样的专业模型擅长精确、高速的任务,如物体检测,用精确的边界框定位狗和飞盘。这些模型是互补的;YOLO 提供 "是什么 "和 "在哪里",而多模态人工智能可以补充 "怎么做 "和 "为什么"。您可以对不同的物体检测模型进行比较,以了解它们的具体优势。

可以使用Ultralytics HUB 等平台来管理专业模型和多模态模型的开发和部署,从而简化 ML 工作流程。多模态人工智能的进步是朝着创造能力更强、适应性更强的人工智能迈出的重要一步,有可能为谷歌 DeepMind 等机构研究的人工通用智能(AGI)铺平道路。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板