深圳Yolo 视觉
深圳
立即加入
词汇表

多模态学习

探索人工智能中多模态学习的力量!了解模型如何整合不同的数据类型,以实现更丰富、更实际的问题解决。

多模态学习是机器学习(ML)的一个高级子领域。 多模态学习机器学习(ML)的一个高级子领域。 多模态学习是机器学习(ML)的高级子领域,该领域训练算法处理、理解和关联来自多种不同类型数据(称为模态)的信息。 传统的人工智能系统通常只关注单一的输入类型,如语言翻译的文本或图像识别的像素。 而多模态学习通过整合不同的感官信息来模拟人类认知 多模态学习通过整合多种感官输入,如视觉数据、口语音频、文本描述和传感器读数,来模拟人类认知。 读数。这种整体方法允许 人工智能(AI)能够 人工智能(AI)对世界有了更深入的、能感知上下文的理解,从而建立起更强大、更全面的预测模型。

多模式整合的机制

多模态学习的核心挑战是将不同的数据类型转化为一个共享的数学空间,在这个空间中,它们可以进行比较和组合。 进行比较和组合。这一过程通常包括三个主要阶段:编码、对齐和融合。

  1. 编码:专门的神经网络可独立处理每种模式。例如 卷积神经网络(CNN)视觉转换器(ViT)从图像中提取 从图像中提取特征,而 递归神经网络(RNN)或 变换器处理文本。
  2. 对齐:模型学会将这些不同的特征映射成共享的高维向量 称为嵌入。在这个共享空间中 狗 "这个词的向量和狗的图像的向量就会靠得很近。像 对比学习等技术 等论文所推广的对比学习技术在这里至关重要。
  3. 融合:最后,合并信息以执行任务。融合可以发生在早期(合并原始数据 数据)、后期(合并最终预测结果)或通过中间混合方法使用 注意机制来权衡每种模式的重要性。 动态权衡每种模式的重要性。

实际应用

多模式学习是当今许多令人印象深刻的人工智能突破背后的引擎,它在不同的数据孤岛之间架起了一座桥梁。 数据孤岛之间的鸿沟。

  • 可视化问题解答(VQA):视觉问题解答(VQA)中,一个 系统必须分析图像并回答有关图像的自然语言问题,例如 "交通信号灯是什么颜色的? 红绿灯是什么颜色?这就要求模型理解文本的语义,并在空间上定位相应的视觉元素。 相应的视觉元素。
  • 自主导航:自动驾驶汽车在很大程度上依赖于 传感器融合,结合来自激光雷达点云、摄像头视频和雷达的数据、 摄像头视频馈送和雷达的数据,从而实现安全导航。这种多模式输入可确保在一个传感器出现故障时(例如,摄像头被阳光刺瞎 摄像头被强光遮住),其他传感器也能确保安全。
  • 医疗诊断: 医疗保健领域的人工智能利用多模式学习 通过分析医学影像(如核磁共振成像或 X 光)以及非结构化文本病史和遗传数据。 这种全面的视角有助于医生做出更准确的诊断,这也是《自然-数字医学》杂志经常讨论的话题。 自然-数字医学》杂志经常讨论这一话题。

利用Ultralytics进行多模态物体检测

标准的物体检测器依赖于预定义的类别,而多模式方法,如 YOLO等多模式方法允许用户使用 开放词汇文本提示来检测物体。这证明了将文本概念与视觉特征联系起来的强大功能。

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

区分关键术语

要想了解现代人工智能的发展状况,将 "多模态学习 "与相关概念区分开来是很有帮助的:

  • 多模式模型 "多模式学习 "指的是学习方法和学习领域。多模式 模式"(如GPT-4或双子座)是指在培训过程中产生的具体的 多模式模型"(如 GPT-4 或 Gemini)是培训过程中产生的具体工具或软件产品。
  • 计算机视觉(CV)计算机视觉 一般是单模态的,只关注视觉数据。而像 Ultralytics YOLO11这样的模型是最先进的 CV 工具,但当它的输出与音频或文本数据相结合时,就会成为多模态管道的一部分。 当它的输出与音频或文本数据相结合时,就会成为多模式管道的一部分。
  • 大型语言模型(LLM) 传统的 LLM 是单模态的,只针对文本进行训练。然而,业界正在向 "大型多模态 模型"(LMMs),这种模型可以处理图像和文本。 PyTorchTensorFlow.

未来展望

多模态学习的发展轨迹指向拥有以下功能的系统 人工通用智能(AGI) 特征的系统。通过成功地将语言建立在视觉和物理现实的基础上,这些模型正在超越统计相关性,走向真正的推理。 统计相关性,走向真正的推理。麻省理工学院 CSAIL 和 麻省理工学院 CSAIL斯坦福基础模型研究中心等机构的研究,不断推动着 机器如何感知复杂的多感官环境并与之互动。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入