遇见 YOLO26: 下一代视觉 AI。
Ultralytics
返回 Ultralytics 词汇表

Multi-Modal Learning

探索 AI 中的多模态学习。了解它如何整合文本、视觉和音频,以支持如 Ultralytics YOLO26 和 YOLO-World 等鲁棒模型。立即探索更多内容!

多模态学习是一种先进的人工智能 (AI)方法,旨在训练算法来处理、理解并关联来自多种不同类型数据(或称“模态”)的信息。与专注于单一输入类型(如用于翻译的文本或用于图像识别的像素)的传统系统不同,多模态学习通过整合视觉数据、口语音频、文本描述和传感器读数等多种感官输入来模拟人类认知。这种整体方法使机器学习 (ML) 模型能够对世界产生更深入、更具上下文意识的理解,从而实现更稳健且功能多样的预测。

Link to this section多模态学习的工作原理#

多模态学习的核心挑战在于将不同类型的数据转换为一个共享的数学空间,以便在其中进行比较和整合。这一过程通常包含三个主要阶段:编码、对齐和融合。

  1. 特征提取 专门的神经网络会独立处理每种模态。例如,卷积神经网络 (CNN)Vision Transformers (ViT) 可能从图像中提取特征,而 循环神经网络 (RNN) 或 Transformer 则负责处理文本。

  2. 嵌入对齐 模型学习将这些多样化的特征映射到共享的高维向量中。在这个共享空间里,“猫”这个词的向量与猫的图像向量会被拉近。诸如对比学习等技术在此过程中至关重要,这些技术因 OpenAI 的 CLIP 等论文而广为人知。

  3. 数据融合 最后,将信息合并以执行任务。融合可以在早期(合并原始数据)、晚期(合并最终预测)发生,或者通过中间混合方法进行,利用注意力机制动态加权每种模态的重要性。

Link to this section实际应用#

多模态学习是当今许多令人瞩目的 AI 突破背后的引擎,它架起了弥合不同数据孤岛的桥梁,从而解决复杂问题。

  • 视觉问答 (VQA) 在此应用中,系统必须分析图像并回答有关它的自然语言问题,例如“交通灯是什么颜色的?”。这要求模型理解文本语义,并利用计算机视觉在空间上定位相应的视觉元素。
  • 自动驾驶车辆 自动驾驶汽车严重依赖传感器融合,结合来自 LiDAR 点云、摄像头视频流和雷达的数据来安全导航。这种多模态输入确保了如果一个传感器发生故障(例如摄像头被阳光眩光致盲),其他传感器仍能维持道路安全
  • 医疗诊断 医疗领域的 AI 利用多模态学习,通过分析医学图像(如 MRI 或 X 光片)以及非结构化的文本病史和基因数据。这种全面的视角有助于医生做出更准确的诊断,这是 Nature Digital Medicine 期刊经常讨论的话题。
  • 生成式 AI 从文本提示创建图像的工具(如 Stable Diffusion)完全依赖于模型理解语言描述与视觉纹理之间关系的能力。

Link to this section利用 Ultralytics 进行多模态目标检测#

虽然标准目标检测器依赖预定义的类别,但像 YOLO-World 这样的多模态方法允许你使用开放词汇的文本提示来检测对象。这展示了在 Ultralytics 生态系统中将文本概念与视觉特征进行关联的强大能力。

以下 Python 代码片段展示了如何使用预训练的 YOLO-World 模型根据自定义文本输入来检测对象。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this section区分关键术语#

为了理解现代 AI 的格局,区分“多模态学习”与相关概念会很有帮助:

  • 多模态模型 “多模态学习”指的是研究的方法论和领域。“多模态模型”(如 GPT-4 或 Google 的 Gemini)是该训练过程产生的具体产物或软件产品。
  • 单模态 AI 传统计算机视觉通常是单模态的,仅专注于视觉数据。虽然像 Ultralytics YOLO26 这样的模型是用于检测对象的一流 CV 工具,但除非它作为大型多模态流水线的一部分,否则它通常只处理视觉输入。
  • 大型语言模型 (LLM) 传统 LLM 是单模态的,仅在文本上进行训练。然而,行业正在转向可以原生处理图像和文本的“大型多模态模型 (LMM)”,这一趋势得到了 PyTorchTensorFlow 等框架的支持。

Link to this section未来展望#

多模态学习的轨迹指向具备通用人工智能 (AGI) 特征的系统。通过成功将语言扎根于视觉和物理现实中,这些模型正在超越统计相关性,向真正的推理迈进。来自 MIT CSAILStanford Center for Research on Foundation Models 等机构的研究不断推动着机器感知和与复杂、多感官环境交互的边界。

在 Ultralytics,我们正在将这些进步集成到我们的 Ultralytics Platform 中,使用户能够管理数据、训练模型并部署解决方案,从而利用从 YOLO26 的速度到开放词汇检测的多样性等全方位的可用模态。

Explore solutions

Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多
Real-time AI that works with your team

机器人技术中的 AI

使用 Ultralytics YOLO 模型为智能机器赋能。机器人技术中的视觉 AI 可推动自主导航、感知、物体跟踪和实时控制。

了解更多
Real-time AI that works with your team

物流中的 AI

使用 Ultralytics YOLO 模型简化物流。视觉 AI 可实现包裹检查、分拣、车辆跟踪和实时仓库安全监控。

了解更多
Real-time AI that works with your team

零售业 AI

使用 Ultralytics YOLO 模型重塑零售业。视觉 AI 推动库存跟踪、货架监控、队列管理和更智能的客户洞察。

了解更多
Real-time AI that works with your team

医疗保健中的 AI

利用 Ultralytics YOLO 模型构建医疗保健解决方案。医疗保健中的视觉 AI 可助力更快速的医学影像分析、更智能的诊断和患者监测。

了解更多
Real-time AI that works with your team

制造业中的 AI

使用 Ultralytics YOLO 模型优化制造业。视觉 AI 推动质量控制、缺陷检测、PPE 合规性和装配线自动化。

了解更多
Real-time AI that works with your operation

汽车中的 AI

将计算机视觉应用于汽车行业,并配合 Ultralytics YOLO 模型。汽车视觉 AI 可提升道路安全、辅助驾驶和车辆自动化,打造更智能的道路。

了解更多
Real-time AI tailored to your operation

农业中的 AI

借助 Ultralytics YOLO 模型,将视觉 AI 引入智慧农业。赋能作物监测、牲畜追踪和精准农业,实现更高、更智能的产量。

了解更多

让我们一起构建 AI 的未来!

开启你的机器学习未来之旅