探索 AI 中的多模态学习。了解它如何整合文本、视觉和音频以构建像 Ultralytics YOLO26 和 YOLO-World 这样强大的模型。立即了解更多!
多模态学习是人工智能 (AI)领域的一种复杂方法,它训练算法处理、理解并关联来自多种不同类型数据(或称“模态”)的信息。与专注于单一输入类型(例如用于翻译的文本或用于图像识别的像素)的传统系统不同,多模态学习通过整合视觉数据、语音、文本描述和传感器读数等多样化的感官输入来模拟人类认知。这种整体方法使机器学习 (ML)模型能够对世界形成更深入、更具上下文感知的理解,从而产生更鲁棒、更多功能的预测。
多模态学习的核心挑战在于将不同数据类型转换到一个共享的数学空间中,以便进行比较和组合。这个过程通常涉及三个主要阶段:编码、对齐和融合。
多模态学习是当今许多令人瞩目的AI突破背后的驱动力,它弥合了不同数据孤岛之间的鸿沟,以解决复杂问题。
尽管标准目标检测器依赖于预定义类别,但像 YOLO-World 这样的多模态方法允许用户使用开放词汇文本提示来 detect 目标。这展示了在 Ultralytics 生态系统中将文本概念与视觉特征关联起来的强大能力。
以下python代码片段展示了如何使用预训练的YOLO-World模型,基于自定义文本输入来detect目标。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
要想了解现代人工智能的发展状况,将 "多模态学习 "与相关概念区分开来是很有帮助的:
多模态学习的发展轨迹指向拥有以下功能的系统 人工通用智能(AGI) 特征的系统。通过成功地将语言建立在视觉和物理现实的基础上,这些模型正在超越统计相关性,走向真正的推理。 统计相关性,走向真正的推理。麻省理工学院 CSAIL 和 麻省理工学院 CSAIL和 斯坦福基础模型研究中心等机构的研究,不断推动着 机器如何感知复杂的多感官环境并与之互动。
在 Ultralytics,我们正在将这些进步整合到我们的 Ultralytics Platform 中,使用户能够管理数据、训练模型并部署利用所有可用模态的解决方案,从 YOLO26 的速度到开放词汇 detect 的多功能性。
开启您的机器学习未来之旅