深圳Yolo 视觉
深圳
立即加入
词汇表

多模态学习

探索人工智能中的多模态学习。了解其如何整合文本、视觉和音频数据,构建Ultralytics 和YOLO强大模型。立即了解更多!

多模态学习是人工智能(AI)领域的一种先进方法,它通过训练算法来处理、理解并关联来自多种不同类型数据(即"模态")的信息。 不同于仅专注单一输入类型的传统系统——例如翻译系统处理文本或图像识别系统处理像素——多模态学习通过整合视觉数据、语音音频、文本描述和传感器读数等多元感知输入,模拟人类认知方式。这种整体性方法使机器学习(ML)模型能够发展出更深层的、具备上下文感知能力的世界理解力,从而实现更强大且多功能的预测能力。

多模态学习的工作原理

多模态学习的核心挑战在于将不同数据类型转换到一个共享的数学空间中, 使其能够进行比较和融合。该过程通常包含三个主要阶段:编码、对齐和融合。

  1. 特征提取 专用神经网络独立处理每种模态。例如, 卷积神经网络(CNN)视觉变换器(ViT)可能 从图像中提取特征,而 循环神经网络(RNN)或 变换器则处理文本。
  2. 嵌入对齐模型 学会将这些多样化的特征映射到共享的高维向量空间中。在这个共享空间里, 单词"猫"的向量与猫的图像向量被拉近距离。诸如对比学习等技术—— 由OpenAI的CLIP等论文推广开来——在此过程中至关重要。
  3. 数据融合最终,信息被整合以执行任务。融合可发生在早期(合并原始数据)、后期(合并最终预测结果),或通过采用注意力机制动态权衡各模态重要性的中间混合方法实现。

实际应用

多模态学习是当今众多令人瞩目的人工智能突破背后的引擎,它弥合了不同数据孤岛之间的鸿沟,从而解决复杂问题。

利用Ultralytics进行多模态物体检测

标准物体检测器依赖预定义类别,而多模态方法(YOLO)则允许用户通过开放词汇文本提示detect 。这充分展现了在Ultralytics 将文本概念与视觉特征相融合的强大能力。

以下Python 片段展示了如何使用预训练的YOLO 模型,根据自定义文本输入detect 。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

区分关键术语

要想了解现代人工智能的发展状况,将 "多模态学习 "与相关概念区分开来是很有帮助的:

  • 多模态模型 "多模态学习"指的是方法论及研究领域。而"多模态模型"( Google)则是该训练过程所产生的具体成果或软件产品。
  • 单模态人工智能传统计算机视觉通常属于单模态范畴,仅专注于视觉数据。Ultralytics 模型是检测物体的尖端计算机视觉工具,但它通常仅处理视觉输入,除非作为更大型多模态管道的一部分。
  • 大型语言模型(LLM) 传统的 LLM 是单模态的,只针对文本进行训练。然而,业界正在向 "大型多模态 模型"(LMMs),这种模型可以处理图像和文本。 PyTorchTensorFlow.

未来展望

多模态学习的发展轨迹指向拥有以下功能的系统 人工通用智能(AGI) 特征的系统。通过成功地将语言建立在视觉和物理现实的基础上,这些模型正在超越统计相关性,走向真正的推理。 统计相关性,走向真正的推理。麻省理工学院 CSAIL 和 麻省理工学院 CSAIL斯坦福基础模型研究中心等机构的研究,不断推动着 机器如何感知复杂的多感官环境并与之互动。

Ultralytics我们正将这些技术进步整合Ultralytics , 使用户能够管理数据、训练模型并部署解决方案, 充分利用所有可用模态技术——从YOLO26的速度优势 到开放词汇检测的多功能特性。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入