探索世界模型如何利用环境动态使 AI 预测未来状态。了解 Ultralytics YOLO26 如何为预测性 AI 提供感知能力。
“世界模型”指的是AI系统对环境运作方式的内部表示,使其能够根据当前的观察和潜在行动来预测未来的状态或结果。与将输入直接映射到输出(如图像分类)的传统模型不同,世界模型学习系统的潜在动力学、物理和因果关系。这一概念对于推进通用人工智能(AGI)至关重要,因为它赋予机器一种“常识”推理能力,使其能够在现实世界中行动之前在心理上模拟场景。
其核心在于,世界模型的运作方式与人类直觉相似。当你扔球时,你不会计算风阻方程;你的大脑会根据过往经验模拟轨迹。同样,在机器学习 (ML)中,这些模型将高维感官数据(如视频帧)压缩成紧凑的潜在状态。这种压缩状态使智能体能够有效地“梦想”或“幻觉”出潜在的未来。
Ha 和 Schmidhuber 关于 循环世界模型 的前沿研究表明,智能体可以完全在模拟的梦境环境中学习策略。最近,像 OpenAI 的 Sora 这样的 生成式 AI 进展代表了一种视觉形式的世界建模,其中系统理解物理、光照和物体永恒性,以生成连贯的视频内容。
世界模型在需要复杂决策的领域具有尤其强大的变革性。
区分世界模型与标准方法有所助益:
虽然构建一个完整的世界模型是复杂的,但其基本概念依赖于预测未来状态。对于计算机视觉任务,像Ultralytics YOLO26这样的高速detect模型充当感知“眼睛”,将观察结果输入到决策逻辑中。
以下 python 代码片段演示了如何使用 YOLO 模型提取当前状态(物体位置),该状态将作为世界模型预测步骤的输入。
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
世界模型的演进正朝着物理AI发展,数字智能将与物理世界无缝交互。像Yann LeCun的JEPA(联合嵌入预测架构)这样的创新,提出学习抽象表示而非预测每个像素,从而显著提升了模型的效率。
随着这些架构的成熟,我们预计它们将被集成到Ultralytics 平台中,使开发人员不仅能够 detect 物体,而且能够预测它们在动态环境中的轨迹和交互。这种从静态 detect 到动态预测的转变标志着计算机视觉 (CV)的下一个重大飞跃。
开启您的机器学习未来之旅