探索人工智能中的多模态学习。了解其如何整合文本、视觉和音频数据,构建Ultralytics 和YOLO强大模型。立即了解更多!
多模态学习是人工智能(AI)领域的一种先进方法,它通过训练算法来处理、理解并关联来自多种不同类型数据(即"模态")的信息。 不同于仅专注单一输入类型的传统系统——例如翻译系统处理文本或图像识别系统处理像素——多模态学习通过整合视觉数据、语音音频、文本描述和传感器读数等多元感知输入,模拟人类认知方式。这种整体性方法使机器学习(ML)模型能够发展出更深层的、具备上下文感知能力的世界理解力,从而实现更强大且多功能的预测能力。
多模态学习的核心挑战在于将不同数据类型转换到一个共享的数学空间中, 使其能够进行比较和融合。该过程通常包含三个主要阶段:编码、对齐和融合。
多模态学习是当今众多令人瞩目的人工智能突破背后的引擎,它弥合了不同数据孤岛之间的鸿沟,从而解决复杂问题。
标准物体检测器依赖预定义类别,而多模态方法(YOLO)则允许用户通过开放词汇文本提示detect 。这充分展现了在Ultralytics 将文本概念与视觉特征相融合的强大能力。
以下Python 片段展示了如何使用预训练的YOLO 模型,根据自定义文本输入detect 。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
要想了解现代人工智能的发展状况,将 "多模态学习 "与相关概念区分开来是很有帮助的:
多模态学习的发展轨迹指向拥有以下功能的系统 人工通用智能(AGI) 特征的系统。通过成功地将语言建立在视觉和物理现实的基础上,这些模型正在超越统计相关性,走向真正的推理。 统计相关性,走向真正的推理。麻省理工学院 CSAIL 和 麻省理工学院 CSAIL和 斯坦福基础模型研究中心等机构的研究,不断推动着 机器如何感知复杂的多感官环境并与之互动。
Ultralytics我们正将这些技术进步整合Ultralytics , 使用户能够管理数据、训练模型并部署解决方案, 充分利用所有可用模态技术——从YOLO26的速度优势 到开放词汇检测的多功能特性。