术语表

多模式模型

了解多模态人工智能模型如何整合文本、图像等内容,为现实世界的应用创建强大的多功能系统。

多模态模型是一种人工智能系统,可以同时处理和理解来自多种类型数据或 "模态 "的信息。与只能处理文本或图像的传统模型不同,多模态模型可以同时解释文本、图像、音频和其他数据源,从而获得更全面、更接近人类的理解。这种整合不同数据流的能力是迈向更先进、更能感知上下文的人工智能系统的重要一步,它能够处理需要从多个角度理解世界的复杂任务。这种方法是未来人工智能在我们日常生活中应用的基础。

多模式模型的工作原理

多模态模型的核心创新在于其架构,该架构旨在发现和学习不同数据类型之间的关系。实现这一点的关键技术是Transformer 架构,该架构最初在开创性论文"注意力就是你所需要的一切 "中作了详细阐述。该架构利用注意力机制来权衡输入数据不同部分的重要性,无论是句子中的单词还是图像中的像素。该模型通过学习来创建共享表征或嵌入,从而在一个共同的空间中捕捉来自每种模式的意义。

这些复杂的模型通常使用PyTorchTensorFlow 等强大的深度学习(DL)框架构建。训练过程包括向模型提供大量包含配对数据的数据集,如带有文字说明的图像,使其能够学习各种模式之间的联系。

实际应用

多模式模型已经为各种创新应用提供了动力。以下是两个突出的例子:

  1. 视觉问题解答(VQA):用户可以向模型提供一张图片,并用自然语言提问,如 "桌子上的花是什么类型的?模型会处理视觉信息和文本查询,从而提供相关答案。这项技术在教育和视障人士无障碍工具等领域具有巨大潜力。
  2. 文本到图像生成:OpenAI 的 DALL-E 3Midjourney这样的模型可以根据文字提示(例如,"日落时分的未来城市景观,有飞行汽车")生成与描述相符的独特图像。这种形式的生成式人工智能正在彻底改变从市场营销到游戏设计等创意产业。

主要概念和区别

理解多模态模型需要熟悉相关概念:

  • 多模态学习这是机器学习(ML)的一个子领域,侧重于开发用于训练多模态模型的算法和技术。它解决了学术论文中经常讨论的数据对齐和融合策略等难题。简而言之,多模态学习是过程,而多模态模型是结果
  • 基础模型许多现代基础模型(如GPT-4)本身就是多模式的,能够处理文本和图像。这些大型模型可作为基础,针对特定任务进行微调
  • 大型语言模型(LLM)虽然相关,但 LLM 传统上侧重于文本处理。多模态模型的范围更广,明确设计用于处理和整合来自不同数据类型的信息,而不仅仅是语言。不过,随着视觉语言模型(VLM)的兴起,这种界限正在变得模糊。
  • 专业视觉模型:多模态模型与Ultralytics YOLO 等专业计算机视觉(CV)模型不同。GPT-4 等多模态模型可以描述图像("有一只猫坐在垫子上"),而 YOLO 模型则擅长对象检测实例分割,通过边界框或像素掩码精确定位猫的位置。这些模型可以互补;YOLO 模型可以识别物体的位置,而多模态模型则可以解释场景或回答相关问题。查看不同 YOLO 模型之间的比较

开发和部署这些模型通常需要使用Ultralytics HUB 这样的平台,它可以帮助管理数据集和模型训练工作流。桥接不同数据类型的能力使多模式模型向更全面的人工智能迈进了一步,有可能为未来的人工通用智能(AGI)做出贡献。

加入 Ultralytics 社区

加入人工智能的未来。与全球创新者联系、合作和成长

立即加入
链接复制到剪贴板