深圳Yolo 视觉
深圳
立即加入
词汇表

世界模型

探索世界模型如何利用环境动态使 AI 预测未来状态。了解 Ultralytics YOLO26 如何为预测性 AI 提供感知能力。

“世界模型”指的是AI系统对环境运作方式的内部表示,使其能够根据当前的观察和潜在行动来预测未来的状态或结果。与将输入直接映射到输出(如图像分类)的传统模型不同,世界模型学习系统的潜在动力学、物理和因果关系。这一概念对于推进通用人工智能(AGI)至关重要,因为它赋予机器一种“常识”推理能力,使其能够在现实世界中行动之前在心理上模拟场景。

世界模型背后的机制

其核心在于,世界模型的运作方式与人类直觉相似。当你扔球时,你不会计算风阻方程;你的大脑会根据过往经验模拟轨迹。同样,在机器学习 (ML)中,这些模型将高维感官数据(如视频帧)压缩成紧凑的潜在状态。这种压缩状态使智能体能够有效地“梦想”或“幻觉”出潜在的未来。

Ha 和 Schmidhuber 关于 循环世界模型 的前沿研究表明,智能体可以完全在模拟的梦境环境中学习策略。最近,像 OpenAI 的 Sora 这样的 生成式 AI 进展代表了一种视觉形式的世界建模,其中系统理解物理、光照和物体永恒性,以生成连贯的视频内容。

在机器人技术与模拟中的应用

世界模型在需要复杂决策的领域具有尤其强大的变革性。

  • 自动驾驶车辆:自动驾驶汽车使用世界模型来预测其他驾驶员和行人的行为。通过每秒模拟数千种潜在交通场景,车辆可以选择最安全的路径。这与 汽车计算机视觉解决方案 密切相关,其中准确的感知是预测的基础。
  • 机器人技术:工业机器人 领域,经过世界模型训练的机械臂无需重新训练即可适应新物体或意外障碍。它理解抓取和运动的物理原理,从而改进 智能制造解决方案

世界模型 vs. 标准强化学习

区分世界模型与标准方法有所助益:

  • 世界模型与强化学习(RL)传统强化学习通常是“无模型”的,这意味着智能体纯粹通过在环境中试错来学习。世界模型方法是“基于模型”的,智能体构建一个模拟器进行学习,从而大幅减少所需的真实世界交互量。
  • 世界模型与大型语言模型(LLMs)虽然LLMs预测下一个文本token,但世界模型通常预测下一个视觉帧或状态。然而,随着多模态学习的兴起,模型整合了文本、视觉和物理,这些界限正在模糊。

实际实现概念

虽然构建一个完整的世界模型是复杂的,但其基本概念依赖于预测未来状态。对于计算机视觉任务,像Ultralytics YOLO26这样的高速detect模型充当感知“眼睛”,将观察结果输入到决策逻辑中。

以下 python 代码片段演示了如何使用 YOLO 模型提取当前状态(物体位置),该状态将作为世界模型预测步骤的输入。

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

预测性 AI 的未来

世界模型的演进正朝着物理AI发展,数字智能将与物理世界无缝交互。像Yann LeCun的JEPA(联合嵌入预测架构)这样的创新,提出学习抽象表示而非预测每个像素,从而显著提升了模型的效率。

随着这些架构的成熟,我们预计它们将被集成到Ultralytics 平台中,使开发人员不仅能够 detect 物体,而且能够预测它们在动态环境中的轨迹和交互。这种从静态 detect 到动态预测的转变标志着计算机视觉 (CV)的下一个重大飞跃。

让我们一起共建AI的未来!

开启您的机器学习未来之旅