探索多模态AI以及它如何整合文本和视觉以实现上下文感知理解。立即学习如何使用Ultralytics YOLO26和开放词汇模型。
多模态AI指的是一类复杂的人工智能 (AI)系统,旨在同时处理、解释和综合来自多种不同类型数据(即“模态”)的信息。与传统专注于单一输入源(例如用于文本的自然语言处理 (NLP)或用于图像的计算机视觉 (CV))的单模态系统不同,多模态AI通过整合多样化的数据流来模拟人类感知。这种整合可以包括将视觉数据(图像、视频)与语言数据(文本、语音)以及传感器信息(激光雷达、雷达、热成像)相结合。通过利用这些组合输入,这些模型能够对复杂的现实世界场景形成更深入、更具上下文感知的理解,从而更接近通用人工智能 (AGI)的广泛能力。
多模态 AI 的核心优势在于它能够将不同数据类型映射到共享的数学空间,在该空间中,它们可以进行比较和组合。这个过程通常涉及三个关键阶段:编码、对齐和融合。
多模态AI释放了单模态系统此前无法实现的能力,推动了各行各业的创新。
尽管标准目标检测器依赖预定义的类别列表,但像YOLO-World这样的多模态方法允许用户使用开放词汇文本提示来检测物体。这弥合了Ultralytics生态系统内语言命令和视觉识别之间的差距。
下面的示例演示了如何使用 ultralytics 库来执行开放词汇
在这种情况下,模型会根据自定义文本输入检测对象:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
为了更好地理解现代机器学习的格局,区分“多模态AI”与相关概念会很有帮助:
多模态AI的发展轨迹指向拥有更强推理能力的系统。通过成功地将语言与视觉和物理现实相结合,这些模型正在超越统计相关性,迈向真正的理解。像Google DeepMind和斯坦福基础模型研究中心这样的机构的研究继续推动机器感知复杂环境的界限。
在Ultralytics,我们正在将这些进步整合到Ultralytics Platform中,使用户能够管理数据、训练模型和部署解决方案,这些解决方案利用了所有可用的模态,将YOLO26的速度与多模态输入的通用性相结合。

开启您的机器学习未来之旅