探索多模态人工智能及其如何融合文本与视觉实现情境感知理解。立即学习使用Ultralytics 和开放词汇模型。
多模态人工智能指一类复杂的人工智能系统,旨在同时处理、解读和综合来自多种不同数据类型(即"模态")的信息。与专注于单一输入源的传统单模态系统(如针对文本的自然语言处理或针对图像的计算机视觉)不同,多模态人工智能通过整合多样化数据流——例如结合视觉数据(图像、视频)与计算机视觉(CV)——来模拟人类感知能力。这种整合可包含融合视觉数据(图像、视频)与计算机视觉(CV)——多模态人工智能通过整合多样化数据流——例如结合视觉数据(图像、视频)与计算机视觉(CV)——来模拟人类感知能力。这种整合可包含融合视觉数据(图像、视频)与计算机视觉(CV)——多模态人工智能通过整合多样化数据流——例如结合视觉数据(图像、视频)与计算机视觉(CV)——来模拟人类感知能力。这种整合可包含融合视觉数据(图像、视频)与计算机 自然语言处理(NLP)处理文本或计算机视觉(CV)处理图像——多模态AI通过整合多样化数据流来模拟人类感知。这种整合可包含视觉数据(图像、视频)与语言数据(文本、语音)及感知信息(激光雷达、雷达、热成像)的融合。 通过利用这些综合输入,该类模型能对复杂现实场景实现更深入、更具情境感知力的理解,逐步逼近通用人工智能(AGI)的广阔能力边界。
多模态人工智能的核心优势在于其能够将不同数据类型映射到共享的数学空间中, 从而实现数据的比较与融合。该过程通常包含三个关键阶段:编码、对齐和 融合。
多模态人工智能解锁了单模态系统无法实现的能力,推动了各行业的创新发展。
标准物体检测器依赖预定义的类别列表,而多模态方法(YOLO)则允许用户通过开放词汇文本提示detect 。这Ultralytics 弥合了语言指令与视觉识别之间的鸿沟。
下面的示例演示了如何使用 ultralytics 库来执行开放词汇
在这种情况下,模型会根据自定义文本输入检测对象:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
要理解现代机器学习的格局,区分"多模态人工智能"与相关概念很有帮助:
多模态人工智能的发展轨迹正指向具备更强推理能力的系统。通过成功将语言植根于视觉与物理现实,这些模型正从统计相关性迈向真正的理解。Google 和斯坦福基础模型研究中心等机构的研究,持续拓展着机器感知复杂环境的边界。
Ultralytics我们将这些技术突破整合Ultralytics 使用户能够管理数据、训练模型并部署解决方案, 充分利用所有可用模态, 将YOLO26的速度优势与多模态输入的灵活性相结合。