术语表

多模式模型

了解多模态人工智能模型如何整合文本、图像等内容,为现实世界的应用创建强大的多功能系统。

使用Ultralytics HUB 对YOLO 模型进行简单培训

了解更多

多模态模型通过处理和整合来自多种类型数据源称为模态的信息,代表了人工智能(AI)的一大进步。传统模型可能只关注图像或文本,而多模态系统则不同,它将文本、图像、音频、视频和传感器数据等输入信息结合在一起,从而实现对复杂场景更全面、更人性化的理解。这种整合使它们能够捕捉到单一模式模型可能忽略的错综复杂的关系和上下文,从而开发出更强大、更多用途的人工智能应用,Ultralytics 博客等资源对此进行了进一步的探讨。

定义

多模态模型是一种人工智能系统,其设计和训练目的是同时处理、理解和关联来自两种或两种以上不同数据模态的信息。常见的模式包括视觉(图像、视频)、听觉(语音、声音)、文本(自然语言处理 - NLP)和其他传感器数据(如激光雷达或温度读数)。其核心理念是信息融合--结合不同数据类型的优势,实现更深入的理解。例如,要完全理解一段视频,需要处理视觉帧、口语对话(音频)以及可能的文字说明或字幕。通过在机器学习(ML)训练过程中学习这些模式之间的相关性和依赖性通常使用深度学习(DL)技术),这些模型可以形成比单独分析每种模式更丰富、更细致的理解。

相关性和应用

多模态模型的重要性正在迅速增加,因为现实世界的信息本质上是多方面的。人类自然会使用多种感官来感知世界;赋予人工智能类似的能力,可以实现更复杂、更能感知上下文的应用。在理解取决于整合不同数据流的情况下,这些模型至关重要,可提高复杂任务的准确性

下面是一些具体的应用实例:

主要概念和区别

了解多模式模型需要熟悉相关概念:

  • 多模态学习这是人工智能的一个子领域,重点是开发用于训练多模态模型的算法和技术。它解决了学术论文中经常讨论的数据对齐和融合策略等难题。
  • 基础模型许多现代基础模型(如GPT-4)本身就是多模式的,能够处理文本和图像。这些大型模型可作为基础,针对特定任务进行微调
  • 大型语言模型(LLM)虽然相关,但 LLM 传统上侧重于文本处理。多模态模型的范围更广,明确设计用于处理和整合来自不同数据类型的信息,而不仅仅是语言。不过,一些先进的 LLM 已经具备了多模态能力。
  • 专业视觉模型:多模态模型不同于专门的计算机视觉(CV)模型,例如 Ultralytics YOLO.GPT-4 等多模态模型可以描述图像("有一只猫坐在垫子上"),而YOLO 模型则擅长物体检测实例分割,通过边界框或像素掩码精确定位猫的位置。这些模型可以互补;YOLO 模型可以识别物体的位置,而多模态模型则可以解释场景或回答相关问题。查看不同YOLO 模型之间的比较
  • 转换器架构 注意力就是一切》中介绍的转换器架构是许多成功的多模态模型的基础,它通过注意力机制实现了对不同数据序列的有效处理和整合。

开发和部署这些模型通常需要使用以下框架 PyTorchTensorFlowUltralytics HUB等平台可以帮助管理数据集和模型训练工作流,不过 HUB 目前更侧重于视觉特定任务。桥接不同数据类型的能力使多模式模型向更全面的人工智能迈进了一步,有可能为未来的人工通用智能(AGI)做出贡献。

阅读全部