Multimodal AI
探索多模态 AI 及其如何整合文本和视觉以实现上下文感知理解。立即学习如何使用 Ultralytics YOLO26 和开放词汇模型。
多模态 AI 指的是一类复杂的 人工智能 (AI) 系统,旨在同时处理、解释和综合来自多种不同类型数据(或“模态”)的信息。与专注于单一输入源的传统单模态系统(例如用于文本的 自然语言处理 (NLP) 或用于图像的 计算机视觉 (CV))不同,多模态 AI 通过整合多样化的数据流来模拟人类的感知。这种整合可以包括将视觉数据(图像、视频)与语言数据(文本、语音)以及传感信息(LiDAR、雷达、热成像)相结合。通过利用这些组合输入,这些模型能够对复杂的现实场景进行更深入、更具情境感知的理解,从而更接近 通用人工智能 (AGI) 的广泛能力。
Link to this section多模态系统如何工作#
多模态 AI 的核心优势在于它能够将不同类型的数据映射到一个共享的数学空间中,并在该空间内进行比较和组合。此过程通常包含三个关键阶段:编码、对齐和融合。
-
特征提取: 专门的神经网络会独立处理每种模态以识别关键模式。例如,卷积神经网络 (CNN) 可能会从照片中提取视觉特征,而 Transformer 则处理随附的说明文字。
-
对齐与 嵌入: 提取的特征被转换为高维数值向量。模型通过学习来对齐这些向量,使得语义相似的概念(例如,猫的图像和文本词“猫”)在向量空间中彼此靠近。这通常通过诸如 对比学习 之类的技术来实现,这是一种在 OpenAI 的 CLIP 等模型中广为人知的方法。
-
数据融合: 系统使用先进的 融合技术 合并已对齐的数据。现代架构使用 注意力机制 根据情境动态权衡某种模态相对于另一种模态的重要性,从而允许模型在图像模糊时专注于文本,反之亦然。
Link to this section实际应用#
多模态 AI 开启了单模态系统以前无法实现的功能,推动了各行各业的创新。
- 视觉问答 (VQA): 在此应用中,用户可以向 AI 提供一张图像,并针对该图像询问自然语言问题。例如,视障用户可以上传一张食品储藏室的照片,并问:“我还有意面吗?”模型会处理视觉内容和文本查询,从而提供具体的答案。
- 自动驾驶汽车: 自动驾驶汽车高度依赖多模态输入,结合了来自摄像头、LiDAR 点云和雷达的数据以安全导航。这种冗余确保了如果一个传感器发生故障(例如,摄像头被阳光眩光遮挡),其他传感器仍能维持 美国汽车工程师学会 (SAE) 定义的安全标准。
- 医疗诊断: 先进的医疗 AI 系统会分析 医学图像分析(例如 MRI 或 X 射线)以及非结构化的患者病史文本和基因数据。这种全面的视图有助于医生做出更准确的诊断,这一主题经常在 《自然-数字医学》(Nature Digital Medicine) 中被探讨。
- 生成式 AI: 从文本提示创建图像的工具(如 Stable Diffusion)完全依赖于模型理解语言描述与视觉纹理之间关系的能力。
Link to this sectionUltralytics 的开放词汇检测#
虽然标准目标检测器依赖于预定义的类别列表,但像 YOLO-World 这样的多模态方法允许用户使用开放词汇的文本提示来检测对象。这弥合了 Ultralytics 生态系统中语言指令与视觉识别之间的差距。
以下示例展示了如何使用 ultralytics 库执行开放词汇检测,其中模型根据自定义文本输入来检测对象:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()Link to this section区分相关术语#
为了梳理现代机器学习的格局,区分“多模态 AI”与相关概念会很有帮助:
- 多模态学习: 这指的是在混合数据类型上训练算法的学科和 方法论。“多模态 AI”通常是指其实际的 应用 或最终产生的系统本身。
- 大语言模型 (LLMs): 传统 LLM 是单模态的,仅在文本数据上进行训练。然而,行业正在向能够原生处理图像和文本的“大型多模态模型”(LMMs) 转变,这一趋势得到了 PyTorch 和 TensorFlow 等框架的支持。
- 专业视觉模型: 像最先进的 Ultralytics YOLO26 这样的模型是视觉任务中的专业专家。虽然通用的多模态模型可能对场景进行广泛描述,但专业模型在边缘硬件上的高速、精确的 目标检测 和实时处理方面表现出色。
Link to this section未来展望#
多模态 AI 的发展轨迹指向了具备更强推理能力的系统。通过成功将语言扎根于视觉和物理现实中,这些模型正在超越统计相关性,向真正的理解迈进。来自 Google DeepMind 和 斯坦福基础模型研究中心 等机构的研究不断推动着机器感知复杂环境的边界。
在 Ultralytics,我们正在将这些进步整合到 Ultralytics Platform 中,使用户能够管理数据、训练模型并部署解决方案,从而利用所有可用模态的完整频谱,将 YOLO26 的速度与多模态输入的多功能性相结合。






