探索多模态模型如何整合文本、图像和音频。了解 Ultralytics YOLO26 等架构,并在 Ultralytics 平台上部署视觉 AI。
多模态模型是一种先进的人工智能 (AI) 系统,能够同时处理、解释和整合来自多种不同数据类型或“模态”的信息。传统单模态系统专注于单一领域——例如用于文本的自然语言处理 (NLP) 或用于图像的计算机视觉 (CV)——而多模态模型旨在通过综合视觉、听觉和语言线索来模仿人类感知。这种融合使模型能够对世界形成全面的理解,从而能够在视觉场景和口头描述之间建立复杂的关联。这些能力被认为是实现通用人工智能 (AGI) 的基础步骤。
多模态模型的效能依赖于其将不同数据类型映射到共享语义空间的能力。这个过程通常始于创建 嵌入,即捕获输入数据核心含义的数值表示。通过在海量配对示例数据集(例如带字幕的视频)上进行训练,模型学习将“猫”图像的向量表示与单词“猫”的文本嵌入对齐。
几个关键的架构概念使得这种集成成为可能:
多模态模型释放了单模态系统此前无法实现的能力。
下面的示例演示了如何使用 ultralytics 用于执行开放词汇检测的库,模型通过解释文本提示来识别图像中的对象:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
区分“多模态模型”与AI词汇表中的相关概念有助于理解:
该领域正快速发展,趋向于能够实时处理音频、视频和文本连续流的系统。像Google DeepMind这样的组织的研究不断推动机器感知的边界。在Ultralytics,我们通过YOLO26等高性能视觉骨干网络支持这一生态系统。YOLO26于2026年发布,为实例分割等任务提供卓越的速度和准确性,可作为大型多模态管道中高效的视觉组件。开发人员可以使用统一的Ultralytics平台管理这些复杂工作流的数据、训练和部署。

开启您的机器学习未来之旅