深圳Yolo 视觉
深圳
立即加入
词汇表

世界模型

探索世界模型如何利用环境动态使人工智能预测未来状态。Ultralytics 如何为预测性人工智能提供感知能力。

"世界模型"指人工智能系统对环境运作机制的内部表征,使其能够基于当前观测和潜在行动预测未来状态或结果。 与传统模型(如图像分类)直接映射输入输出的方式不同,世界模型致力于学习系统的底层动态、物理特性及因果关系。这一概念对推动通用人工智能(AGI)发展至关重要,因为它赋予机器某种"常识"推理能力,使其能在现实世界行动前进行心理场景模拟。

世界模型的运作机制

本质上,世界模型的工作原理类似于人类的直觉。当你投掷一个球时,不会计算风阻方程;你的大脑会根据过往经验模拟出轨迹。同样地,在机器学习(ML)中,这些模型将高维感知数据(如视频帧)压缩为紧凑的潜在状态。这种压缩状态使智能体能够高效地"构想"或幻觉潜在的未来。

领先的研究,例如Ha和Schmidhuber关于循环世界模型的工作,展示了智能体如何在模拟的梦境环境中完全自主学习策略。近期,OpenAI的Sora等生成式AI的进步则呈现出视觉化的世界建模形式——系统通过理解物理规律、光照特性及物体恒常性,生成具有连贯性的视频序列。

机器人与仿真中的应用

世界模型在需要复杂决策的领域具有特别的变革性。

  • 自动驾驶汽车:无人驾驶车辆通过世界模型预测其他驾驶员及行人的行为。每秒模拟数千种潜在交通场景,车辆得以选择最安全的行驶路径。这与汽车解决方案中的计算机视觉技术紧密相关——精准感知是预测行为的基础。
  • 机器人技术: 工业机器人领域, 经过世界模型训练的机械臂能够适应新型物体或意外障碍物,无需重新训练。 它理解抓取与运动的物理原理,从而提升 智能制造解决方案的效能。

世界模型与标准强化学习

区分世界模型与标准方法是有益的:

  • 世界模型与 强化学习(RL) 传统RL通常属于"无模型"范畴,即智能体完全通过在环境中反复试错来学习。 世界模型方法则属于"基于模型",智能体通过构建模拟器进行学习, 从而大幅减少所需的真实世界交互量。
  • 世界模型与 大型语言模型(LLMs)的对比: 大型语言模型通常预测下一个文本令牌,而世界模型则常预测下一个视觉帧或状态。然而随着多模态学习的兴起,这种界限正逐渐模糊——新型模型将文本、视觉与物理特性融为一体。

实践实施概念

构建完整世界模型虽复杂,其基础概念在于预测未来状态。对于计算机视觉任务,高速检测模型(Ultralytics )充当感官"眼睛",将观察结果输入决策逻辑。

以下Python 演示了如何使用YOLO 提取当前状态(物体位置),该状态将作为世界模型预测步骤的输入。

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

预测性人工智能的未来

世界模型的演进正朝着物理人工智能方向发展,其中数字智能与物理世界实现无缝交互。诸如Yann LeCun提出的联合嵌入预测架构(JEPA)等创新方案,主张学习抽象表征而非逐像素预测,使模型效率显著提升。

随着这些架构的成熟,我们预计它们将被整合到Ultralytics ,使开发者不仅能够detect ,还能预测物体在动态环境中的轨迹与交互。这种从静态检测到动态预测的转变,标志着计算机视觉(CV)领域的下一次重大飞跃。

加入Ultralytics 社区

加入人工智能的未来。与全球创新者联系、协作和共同成长

立即加入