深圳Yolo 视觉
深圳
立即加入
词汇表

多模态模型

探索多模态模型如何整合文本、图像和音频。了解 Ultralytics YOLO26 等架构,并在 Ultralytics 平台上部署视觉 AI。

多模态模型是一种先进的人工智能 (AI) 系统,能够同时处理、解释和整合来自多种不同数据类型或“模态”的信息。传统单模态系统专注于单一领域——例如用于文本的自然语言处理 (NLP) 或用于图像的计算机视觉 (CV)——而多模态模型旨在通过综合视觉、听觉和语言线索来模仿人类感知。这种融合使模型能够对世界形成全面的理解,从而能够在视觉场景和口头描述之间建立复杂的关联。这些能力被认为是实现通用人工智能 (AGI) 的基础步骤。

核心机制与架构

多模态模型的效能依赖于其将不同数据类型映射到共享语义空间的能力。这个过程通常始于创建 嵌入,即捕获输入数据核心含义的数值表示。通过在海量配对示例数据集(例如带字幕的视频)上进行训练,模型学习将“猫”图像的向量表示与单词“猫”的文本嵌入对齐。

几个关键的架构概念使得这种集成成为可能:

  • Transformer 架构许多多模态系统利用 Transformer,它们采用注意力机制来动态衡量不同输入部分的重要性。这使得模型能够聚焦于与文本提示中相关词语对应的特定图像区域,这一概念在开创性研究论文“Attention Is All You Need”中有详细阐述。
  • 数据融合:这指的是结合来自不同来源信息的策略。传感器融合可以通过合并原始数据在早期进行,也可以通过结合独立子模型的决策在后期进行。像PyTorch这样的现代框架提供了构建这些复杂管道所需的灵活性。
  • 对比学习: OpenAI的CLIP等模型使用的技术训练系统,以最小化向量空间中匹配文本-图像对之间的距离,同时最大化不匹配对之间的距离。

实际应用

多模态模型释放了单模态系统此前无法实现的能力。

  • 视觉问答 (VQA): 这些系统允许用户对图像提出自然语言问题。例如,视障用户可能会上传一张储藏室的照片并询问:“顶层货架上有一罐汤吗?”模型使用目标检测来识别物品,并使用 NLP 来理解查询,从而提供有用的响应。
  • 自动驾驶汽车: 自动驾驶汽车作为实时多模态智能体运行。它们结合了来自摄像头的视觉画面、来自激光雷达的深度信息以及来自雷达的速度数据。这种冗余确保了即使一个传感器被天气阻碍,其他传感器也能维持道路安全
  • 开放词汇检测 (Open-Vocabulary Detection):Ultralytics YOLO-World这样的模型允许用户使用任意文本提示而不是固定的类别列表来detect物体。 这弥合了语言指令和视觉识别之间的鸿沟。

示例:开放词汇 detect

下面的示例演示了如何使用 ultralytics 用于执行开放词汇检测的库,模型通过解释文本提示来识别图像中的对象:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

与相关术语的区别

区分“多模态模型”与AI词汇表中的相关概念有助于理解:

  • 多模态学习: 这指的是用于训练这些系统的过程机器学习 (ML)技术。多模态模型是该学习过程的最终产物或软件产品。
  • 大语言模型 (LLM): 传统LLM只处理文本。尽管许多正在发展成为视觉-语言模型 (VLM),但标准的LLM是单模态的。
  • 基础模型: 这是一个描述可适应许多下游任务的大规模模型的更广泛类别。尽管多模态模型通常是基础模型,但并非所有基础模型都处理多种模态。

多模式人工智能的未来

该领域正快速发展,趋向于能够实时处理音频、视频和文本连续流的系统。像Google DeepMind这样的组织的研究不断推动机器感知的边界。在Ultralytics,我们通过YOLO26等高性能视觉骨干网络支持这一生态系统。YOLO26于2026年发布,为实例分割等任务提供卓越的速度和准确性,可作为大型多模态管道中高效的视觉组件。开发人员可以使用统一的Ultralytics平台管理这些复杂工作流的数据、训练和部署。

让我们一起共建AI的未来!

开启您的机器学习未来之旅