深圳Yolo 视觉
深圳
立即加入
词汇表

世界模型

探索世界模型如何模拟环境以预测未来结果。了解它们如何增强Ultralytics YOLO26在自动驾驶和高级机器人技术中的应用。

世界模型是一种先进的人工智能系统,旨在学习其环境的全面模拟,预测世界如何随时间演变以及其自身行为如何影响未来。与通常侧重于将静态输入映射到输出(例如 classify 图像)的传统 预测建模 不同,世界模型旨在理解场景的因果动态。通过内化其观察到的数据的物理、逻辑和时间序列,它可以在事件发生之前模拟潜在结果。这种能力类似于人类的心理模型,允许 AI “梦想”或可视化未来场景,以规划复杂任务或生成逼真的视频内容。

超越静态感知

世界模型的核心创新在于其推理时间与因果关系的能力。在标准的 计算机视觉 任务中,像 Ultralytics YOLO26 这样的模型擅长 detect 单帧内的物体。然而,世界模型更进一步,能够预测这些物体在下一帧中的位置。这种从静态识别到动态预测的转变,对于开发 自动驾驶汽车 和复杂机器人至关重要。

最新突破,例如 OpenAI 的 Sora 文本到视频模型,展示了世界模型的生成能力。通过理解光线、运动和几何如何相互作用,这些系统可以从简单的文本提示中“幻化”出高度逼真的环境。同样,在 强化学习 领域,智能体利用这些内部模拟在虚拟环境中安全训练,然后再尝试现实世界中的危险任务,显著提高了 AI 安全性 和效率。

世界模型与基础模型

区分世界模型与其他广泛的 AI 类别将有所帮助。

  • 世界模型与 基础模型 基础模型是在海量数据上训练的通用模型(如 GPT-4)。世界模型通常是基础模型的一种特定类型或其内部的一个组件,专门设计用于模拟环境动态和时间一致性。
  • 世界模型与 大型语言模型 (LLM) 尽管 LLM 根据语言模式预测下一个文本 token,但世界模型则根据物理和空间规则预测世界的下一个“状态”(通常是视频帧或传感器数据)。

实际应用

世界模型的效用远不止于创建娱乐视频。它们正在成为需要复杂决策的行业中不可或缺的组成部分。

  1. 自动驾驶:Waymo这样的自动驾驶汽车公司利用世界模型(World Models)模拟数百万种驾驶场景。车辆的 AI 可以预测行人和其他车辆的轨迹,规划通过繁忙交叉路口的安全路径,而无需在现实中经历每一个潜在事故。
  2. 机器人技术与制造业:智能制造中,配备世界模型的机器人可以操作它们从未见过的物体。通过模拟抓取或举升的物理过程,机器人预测物品是否会滑落或破损,并在实时推理循环中调整其动作以确保精度。

实际示例:可视化未来状态

尽管全尺寸世界模型需要巨大的计算量,但预测未来帧的概念可以通过 视频理解 原理来阐释。以下示例演示了如何设置一个环境,其中智能体(或模型)可以开始 track 并预测物体运动,这是构建预测性世界观的基础步骤。

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

预测性 AI 的未来

世界模型的发展代表着向 通用人工智能 (AGI) 迈进了一步。通过有效地学习建模世界,AI 系统获得了 空间智能 和一种关于物理交互的“常识”。研究人员目前正在探索 联合嵌入预测架构 (JEPA),以使这些模型更高效,避免生成每个像素的巨大计算成本,转而专注于高级特征预测。随着这些技术的成熟,我们预计将与 Ultralytics Platform 进行更深入的集成,使开发者能够训练出不仅能看到世界,而且真正理解世界的智能体。

让我们一起共建AI的未来!

开启您的机器学习未来之旅