探索扩散强迫(Diffusion Forcing),这是一种生成式建模范式,它将自回归预测与序列扩散相结合,以实现一致的时序数据生成。
扩散驱动(Diffusion Forcing)是一种于2024年提出的先进生成建模范式,它融合了 自回归下标预测与全序列扩散的优势。 通过在序列的不同步骤中应用独立且可变的噪声水平, 该技术使 机器学习模型能够生成高度 一致的时序数据。与传统方法(要么逐个预测离散令牌,要么同时对 整个序列进行去噪)不同,扩散强制训练模型充当稳健的规划者和序列生成器, 能够处理具有复杂、长时效依赖关系的连续状态。
从本质上讲,Diffusion Forcing 的灵感源自 循环神经网络中使用的经典“教师引导”方法。 然而,它并非通过输入真实的离散令牌来预测下一步,而是向transformer输入部分受噪声干扰的 连续历史数据。该模型学会在过去状态的条件下对当前状态进行去噪。 这使得网络能够针对每一帧动态调整噪声水平,为那些 既需要局部精度又需要广泛时间感知能力的任务提供了一个灵活的框架。
在构建智能 AI 代理时,这种方法具有显著优势,这些代理既需应对不可预测的环境, 又需遵循长期计划,从而规避了标准自回归 模型中常见的误差累积问题。
扩散驱动力正在多个复杂的人工智能领域 迅速获得关注:
尽管它们具有相同的根本去噪机制,但扩散强制(Diffusion Forcing)与标准的 扩散模型有着显著区别。 传统的扩散模型, 例如用于文本到图像生成的模型, 通常会同时对单个静态输出的所有像素或潜在变量进行去噪。相比之下,扩散 强制(Diffusion Forcing)明确建模了时间序列,迫使网络遵循因果序列顺序。这使得它更 适合轨迹预测和 动作识别等时序任务。
虽然扩散驱动力主要应用于生成式序列任务,但在现代视觉处理流程中,对时序序列的解释同样 至关重要。例如,您可以利用Ultralytics 高效地在连续视频帧中track , 该模型在物体追踪过程中原生支持 时序一致性。
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")
# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)
# Iterate through the sequence of frames
for frame_result in results:
# Access temporal tracking IDs for objects in the current state
print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")
对于希望大规模收集序列数据并训练先进视觉模型的团队, Ultralytics 提供了强大的基于云的工具,用于管理 复杂数据集、track ,并将模型原生部署到边缘设备。无论您是在 PyTorch 中尝试最先进的因果变换器 PyTorch 中实验最先进的因果变换器,还是部署实时跟踪系统,掌握 时空数据的交叉融合对于人工智能的未来至关重要。


开启您的机器学习未来之旅