Diffusion Policies

探索 Diffusion Policies 如何塑造现代机器人技术。了解它们如何通过去噪建模动作，并与 Ultralytics YOLO26 集成以实现智能感知。

扩散策略代表了机器人学和机器学习领域的一种范式转变，即将AI智能体的视觉运动策略建模为一种条件去噪扩散过程。传统上，行为克隆（一种模仿学习形式）依赖于直接回归，从感官输入中预测单个确定的动作。虽然这在简单任务中有效，但当存在多个有效动作时，直接回归往往会失败，导致动作平均化，从而产生不稳定或不安全的行为。扩散策略通过将动作生成构建为序列细化任务来解决这一问题。从纯随机噪声开始，算法在感官观测（如图像或空间状态数据）的条件下迭代去噪，以生成高精度、稳健且多模态的动作序列。

Link to this section扩散策略的工作原理#

其核心机制依赖于生成式建模中的数学原理，改编了最初为高保真图像合成开发的原始视觉运动扩散策略论文中的技术。在训练阶段（即前向过程）中，将少量噪声逐步添加到最优专家动作轨迹中。随后，训练一个神经网络来根据给定的观测上下文预测并反转这些噪声。

在推理阶段，当机器人与其环境交互时，它会观察周围环境，初始化一个随机动作序列，并利用随机朗之万动力学对其进行去噪。这种迭代优化产生了精细、平滑的电机指令，能够处理复杂的高维动作空间。

Link to this section实际应用#

通过在不发生模式崩塌的情况下准确表示复杂分布，扩散策略正在积极重塑现代物理人工智能。

机器人操纵： 在工业环境中，机械臂利用这些策略执行灵巧且接触密集的任务，例如抓取形状不规则的物体、组装复杂的电子产品或执行流畅的倾倒动作。
自主导航： 自动驾驶系统和无人机将深度估计与扩散策略相结合，在动态环境中规划安全、连续的轨迹，从而优雅地适应那些本会让标准强化学习模型感到困惑的突发障碍物。

Link to this section区分关键术语#

为了阐明扩散策略的具体功能，将其与密切相关的生成式架构进行区分很有帮助：

扩散策略 vs. 扩散模型： 扩散模型泛指用于创建静态数据（如文本转图像合成）的底层生成架构。扩散策略将这种特定机制应用于预测主动机器人的连续时间序列电机指令。
扩散策略 vs. 扩散强制： 扩散强制是一种通用的序列生成框架，它使用每个token不同的噪声水平来训练因果Transformer。虽然两者相关，但扩散强制非常注重自回归预测，而扩散策略严格指代用于视觉运动控制的模仿学习策略。

Link to this section策略学习的最新进展#

包括OpenAI研究计划和Google DeepMind机器人技术在内的顶级机构的研究不断拓展着这些算法所能达到的极限。值得注意的是，2024年发表在arXiv上的3D扩散策略（DP3）引入了一项突破，它将策略建立在紧凑的3D点云表示之上，而非简单的2D图像。这显著提高了机器人的空间感知能力，同时大幅减少了专家演示的需求。像D3P: 动态去噪扩散策略这样的进一步创新，已经开始通过为常规动作动态跳过去噪步骤来解决标准扩散推理速度慢的问题，从而实现了实时响应。

Link to this section基于计算机视觉的实际实现#

在扩散策略生成动作之前，它需要对环境有清晰、结构化的理解。工程师经常将稳健的目标检测模型与策略算法相结合，形成完整的计算机视觉流水线。例如，像Ultralytics YOLO26这样快速的感知模型可以实时分离目标物体，并将空间坐标输入到基于PyTorch库的扩散策略中。

import torch
from ultralytics import YOLO

# Load the Ultralytics YOLO26 Nano model for high-speed robotic perception
model = YOLO("yolo26n.pt")

# Predict bounding boxes on the robot's active camera feed
results = model.predict("robot_camera_feed.jpg")

# Condition the policy by extracting the bounding box center coordinate
if len(results[0].boxes) > 0:
    box = results[0].boxes[0].xyxy.squeeze()
    center_x = (box[0] + box[2]) / 2.0
    center_y = (box[1] + box[3]) / 2.0

    # Create a spatial observation tensor to condition the PyTorch Diffusion Policy.
    # This directly guides the denoising process to generate accurate motor actions.
    observation_state = torch.tensor([center_x, center_y])
    print(f"Conditioning action trajectory on object center: {observation_state}")

为了简化此工作流程，开发者可以使用Ultralytics Platform，利用快速的自动标注工具处理自定义数据集。这种端到端支持加速了从原始摄像机流到可执行机器人智能的模型部署过程。