深圳Yolo 视觉
深圳
立即加入
词汇表

多模态学习

探索 AI 中的多模态学习。了解它如何整合文本、视觉和音频以构建像 Ultralytics YOLO26 和 YOLO-World 这样强大的模型。立即了解更多!

多模态学习是人工智能 (AI)领域的一种复杂方法,它训练算法处理、理解并关联来自多种不同类型数据(或称“模态”)的信息。与专注于单一输入类型(例如用于翻译的文本或用于图像识别的像素)的传统系统不同,多模态学习通过整合视觉数据、语音、文本描述和传感器读数等多样化的感官输入来模拟人类认知。这种整体方法使机器学习 (ML)模型能够对世界形成更深入、更具上下文感知的理解,从而产生更鲁棒、更多功能的预测。

多模态学习的工作原理

多模态学习的核心挑战在于将不同数据类型转换到一个共享的数学空间中,以便进行比较和组合。这个过程通常涉及三个主要阶段:编码、对齐和融合。

  1. 特征提取: 专门的神经网络独立处理每种模态。例如,卷积神经网络 (CNN)Vision Transformers (ViTs)可能从图像中提取特征,而循环神经网络 (RNN)或Transformer处理文本。
  2. 嵌入对齐: 模型学习将这些多样化的特征映射到共享的高维向量中。在这个共享空间中,单词“猫”的向量和猫图像的向量被拉近。对比学习等技术,例如由OpenAI的CLIP等论文推广的技术,在此至关重要。
  3. 数据融合 最后,信息被合并以执行任务。融合可以在早期(结合原始数据)、晚期(结合最终预测)或通过使用 注意力机制 动态权衡每种模态重要性的中间混合方法进行。

实际应用

多模态学习是当今许多令人瞩目的AI突破背后的驱动力,它弥合了不同数据孤岛之间的鸿沟,以解决复杂问题。

  • 视觉问答 (VQA) 在此应用中,系统必须分析图像并回答关于它的自然语言问题,例如“交通灯是什么颜色?”。这要求模型理解文本的语义,并使用 计算机视觉 在空间上定位相应的视觉元素。
  • 自动驾驶汽车: 自动驾驶汽车严重依赖传感器融合,结合来自激光雷达点云、摄像头视频流和雷达的数据以安全导航。这种多模态输入确保了即使一个传感器失效(例如,摄像头被太阳眩光致盲),其他传感器也能维持道路安全
  • 医疗诊断 医疗领域的 AI 通过分析 医学图像(如 MRI 或 X 射线)以及非结构化文本患者病史和遗传数据来利用多模态学习。这种全面的视角有助于医生做出更准确的诊断,这是 《自然数字医学》期刊 中经常讨论的话题。
  • 生成式AI: 从文本提示创建图像的工具,例如Stable Diffusion,完全依赖于模型理解语言描述和视觉纹理之间关系的能力。

利用Ultralytics进行多模态物体检测

尽管标准目标检测器依赖于预定义类别,但像 YOLO-World 这样的多模态方法允许用户使用开放词汇文本提示来 detect 目标。这展示了在 Ultralytics 生态系统中将文本概念与视觉特征关联起来的强大能力。

以下python代码片段展示了如何使用预训练的YOLO-World模型,基于自定义文本输入来detect目标。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

区分关键术语

要想了解现代人工智能的发展状况,将 "多模态学习 "与相关概念区分开来是很有帮助的:

  • 多模态模型 “多模态学习”指的是 方法论 和研究领域。“多模态模型”(如 GPT-4 或 Google 的 Gemini)是该训练过程产生的特定 产物 或软件产品。
  • 单模态 AI 传统的计算机视觉通常是单模态的,只专注于视觉数据。尽管像 Ultralytics YOLO26 这样的模型是用于 detect 目标的先进计算机视觉工具,但它通常只处理视觉输入,除非它是更大规模多模态管道的一部分。
  • 大型语言模型(LLM) 传统的 LLM 是单模态的,只针对文本进行训练。然而,业界正在向 "大型多模态 模型"(LMMs),这种模型可以处理图像和文本。 PyTorchTensorFlow.

未来展望

多模态学习的发展轨迹指向拥有以下功能的系统 人工通用智能(AGI) 特征的系统。通过成功地将语言建立在视觉和物理现实的基础上,这些模型正在超越统计相关性,走向真正的推理。 统计相关性,走向真正的推理。麻省理工学院 CSAIL 和 麻省理工学院 CSAIL斯坦福基础模型研究中心等机构的研究,不断推动着 机器如何感知复杂的多感官环境并与之互动。

在 Ultralytics,我们正在将这些进步整合到我们的 Ultralytics Platform 中,使用户能够管理数据、训练模型并部署利用所有可用模态的解决方案,从 YOLO26 的速度到开放词汇 detect 的多功能性。

让我们一起共建AI的未来!

开启您的机器学习未来之旅