深圳Yolo 视觉
深圳
立即加入
词汇表

多模态模型

探索多模态模型如何整合文本、图像和音频。了解诸如Ultralytics 等架构,Ultralytics 部署视觉人工智能。

多模态模型是一种先进的人工智能(AI)系统,能够同时处理、解读和整合来自多种不同数据类型(即"模态")的信息。传统单模态系统专注于单一领域——例如自然语言处理(NLP) 处理文本或计算机视觉(CV)处理图像——而多模态模型旨在通过整合视觉、听觉和语言线索来模拟人类感知。这种融合使模型能够建立对世界的全面理解,从而在视觉场景与口头描述之间建立复杂关联。这些能力被视为实现 通用人工智能(AGI)的基础性步骤。

核心机制与架构

多模态模型的有效性取决于其将多样化数据类型映射到共享语义空间的能力。该过程通常始于创建嵌入表示——即捕捉输入数据核心含义的数值化表征。 通过训练大量配对数据集(如带字幕的视频),模型学会将"猫"图像的向量表示与"猫"一词的文本嵌入对齐。

若干关键的架构概念使这种集成成为可能:

  • Transformer 许多多模态系统采用变压器,该架构通过注意力机制动态权衡不同输入部分的重要性。这使得模型能够聚焦于特定图像区域,这些区域与文本提示中的相关词汇相对应——这一概念在开创性研究论文《注意力就是你所需要的一切》中得到了详细阐述。
  • 数据融合:指将不同来源的信息进行整合的策略。 传感器融合可通过早期合并原始数据实现,也可通过后期整合独立子模型的决策来实现。现代框架如 PyTorch 提供了构建此类复杂管道所需的灵活性。
  • 对比学习: OpenAI的CLIP等模型采用的技术,通过训练系统在向量空间中最小化匹配文本-图像对之间的距离,同时最大化不匹配对之间的距离。

实际应用

多模态模型解锁了单模态系统此前无法实现的能力。

  • 视觉问答(VQA) 这类系统允许用户以自然语言形式对图像提出问题。例如,视障用户 可上传食品储藏室的照片并询问:"顶层架子上有罐头汤吗?"模型通过 物体检测识别物品,并借助自然语言处理技术 理解查询内容,从而提供有用的回答。
  • 自动驾驶车辆 自动驾驶汽车作为实时多模态智能体运作。它们整合来自摄像头的视觉数据、激光雷达的深度信息以及雷达的速度数据。这种冗余设计确保当某一传感器受天气阻碍时,其他传感器仍能保障道路安全
  • 开放词汇检测:诸如 Ultralytics YOLO等模型允许用户通过任意文本提示 而非固定类别列表来detect 。这弥合了语言指令 与视觉识别之间的鸿沟。

示例:开放词汇检测

下面的示例演示了如何使用 ultralytics 用于执行开放词汇检测的库,其中模型通过解读文本提示来识别图像中的物体:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

与相关术语的区别

在人工智能术语表中,区分"多模态模型"与相关概念是有帮助的:

  • 多模态学习 指用于训练这些系统的过程及 机器学习(ML)技术。 多模态模型则是该学习过程所产生的成果或软件产品。
  • 大型语言模型(LLMs) 传统LLMs仅处理文本。尽管许多模型正演变为视觉语言模型(VLMs),但标准LLM仍属于单模态模型。
  • 基础模型这是 一个更广泛的类别,描述适用于多种下游任务的大型模型。虽然多模态模型通常属于基础模型,但并非所有基础模型都能处理多种模态。

多模式人工智能的未来

该领域正迅速发展,致力于构建能够实时处理音频、视频和文本连续流的系统。Google 机构的研究持续拓展着机器感知能力的边界。Ultralytics我们通过高性能视觉骨干网络(如YOLO26)为该生态系统提供支持。2026年发布的YOLO26在实例分割等任务中展现出卓越的速度与精度,成为大型多模态管道中高效的视觉组件。开发者可借助统一Ultralytics 管理这些复杂工作流的数据处理、训练及部署环节。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入