词汇表

世界模型

探索世界模型如何模拟环境以预测未来结果。了解它们如何Ultralytics ，助力自动驾驶与先进机器人技术的发展。

世界模型是一种先进的人工智能系统，旨在学习对其环境的全面模拟，预测世界随时间演变的方式及其自身行为如何影响未来。与传统预测模型通常专注于将静态输入映射到输出（例如图像分类）不同，世界模型致力于理解场景的因果动态。通过内化所观察数据的物理特性、逻辑关系和时间序列，它能在事件发生前模拟潜在结果。这种能力类似于人类的心理模型，使人工智能能够"构想"或可视化未来场景，从而规划复杂任务或生成逼真的视频内容。

超越静态感知

世界模型的核心创新在于其对时间与因果关系的推理能力。在标准计算机视觉任务中，Ultralytics 模型擅长检测单帧内的物体。然而世界模型更进一步，能够预测这些物体在下一帧中的位置。这种从静态识别到动态预测的转变，对开发自动驾驶汽车和精密机器人至关重要。

近期突破性进展，例如OpenAI的Sora文本转视频模型，展现了世界模型的生成能力。通过理解光线、运动与几何的交互作用，这些系统能根据简单文本提示生成高度逼真的环境幻象。在强化学习领域，智能体同样利用内部模拟在虚拟环境中安全训练，从而在执行现实世界危险任务前积累经验，显著提升了人工智能的安全性和效率。

世界模型 vs. 基础模型

区分世界模型与其他广义人工智能范畴是有益的。

世界模型与基础模型： 基础模型是在海量数据上训练的通用模型（如GPT-4）。世界模型通常是基础模型的特定类型或其内部组件，专门设计用于模拟环境动态与时间一致性。
世界模型与大型语言模型（LLMs）的区别： 大型语言模型基于语言模式预测下一个文本令牌，而世界模型则依据物理和空间规则预测世界的下一个"状态"（通常是视频帧或感官数据）。

实际应用

世界模型的实用性远不止于制作娱乐视频。它们正成为需要复杂决策的行业中不可或缺的组成部分。

自动驾驶： 像Waymo这样的自动驾驶汽车公司利用世界模型模拟数百万种驾驶场景。车辆的人工智能能够预测行人及其他车辆的轨迹，在繁忙的十字路口规划安全路线，而无需在现实中经历每种潜在事故。
机器人与制造： 在智能制造领域，配备世界模型的机器人能够操控从未见过的物体。通过模拟抓取或举升的物理特性，机器人可预测物品是否会滑落或破损，并在实时推理循环中调整动作以确保操作精度。

实践案例：未来状态的可视化呈现

虽然全局世界模型需要海量计算资源，但预测未来帧的概念可通过视频理解原理加以阐释。以下示例展示了如何构建环境，使智能体（或模型）开始track 预判物体运动——这是构建预测性世界观的基础步骤。

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

预测性人工智能的未来

世界模型的开发标志着向通用人工智能（AGI）迈进的重要一步。通过有效建模世界，人工智能系统获得了空间智能以及关于物理交互的某种"常识"。研究人员正探索联合嵌入预测架构（JEPA），以提升模型效率——避免生成每个像素的巨大计算成本，转而聚焦高阶特征预测。随着这些技术成熟，我们有望实现Ultralytics 深度融合，使开发者能够训练出不仅能"看见"世界，更能真正理解世界的智能体。

世界模型

培训Ultralytics YOLO 模型，以简化各行业的工作流程

灵活的企业许可解决方案，助力您的创新

使用Ultralytics YOLO在数秒内训练人工智能模型

超越静态感知

世界模型 vs. 基础模型

实际应用

实践案例：未来状态的可视化呈现

预测性人工智能的未来

阅读更多此类别的内容

如何提升模型mAP 小mAP ：快速指南

用计算机视觉重新定义生物多样性监测

在边缘和云端高效部署YOLO26的五大技巧

加入Ultralytics 社区