探索多模态人工智能,该领域涉及系统处理和理解文本、图像和音频等多样化数据。了解其工作原理并探索关键应用。
多模态人工智能指一类复杂的人工智能系统,旨在同时处理、解读和综合来自多种不同数据类型(即"模态")的信息。与专注于单一输入源的传统单模态系统(如针对文本的自然语言处理或针对图像的计算机视觉)不同,多模态人工智能通过整合多样化的数据流来模拟人类感知能力。 自然语言处理(NLP) 处理文本或计算机视觉(CV) 处理图像——多模态AI通过整合多样化数据流来模拟人类感知。 其可融合视觉数据(图像、视频)、语言数据(文本、语音)及感知信息(激光雷达、雷达、热成像)。通过综合利用这些输入,该类模型能对复杂现实场景形成更深入、更具情境感知力的理解,逐步逼近通用人工智能(AGI)的能力范畴。
多模态人工智能的强大之处在于其能够将不同类型的数据映射到共享的数学空间中。 该过程通常包含三个关键阶段:编码、融合和解码。
多模态人工智能正通过解决需要对环境进行整体性观察的问题,彻底改变着各行各业。
多模态人工智能的实际应用案例之一是开放词汇表物体检测,该模型通过任意文本提示而非预训练的类别列表来识别物体。Ultralytics YOLO模型便展现了这种能力,成功弥合了语言指令与视觉识别之间的鸿沟。
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the multimodal detection results
results[0].show()
区分"多模态人工智能"与相关概念有助于更清晰地理解该领域现状:
该领域正朝着基础模型方向发展,这些模型从一开始就具备原生多模态能力,而非拼接独立网络。Google 等机构的研究持续拓展着人工智能感知世界的边界。Ultralytics ,YOLO26的发布 为这些管道的视觉组件树立了效率新标杆, 确保多模态系统的视觉"眼睛"比以往任何时候都更快、更精准。
