自己回帰予測とシーケンス拡散を組み合わせて一貫した時系列データ生成を実現する生成モデリングパラダイム、Diffusion Forcingを探ります。
Diffusion Forcingは、2024年に導入された高度な生成モデリングパラダイムであり、自己回帰的な次トークン予測とフルシーケンス拡散の強みを融合しています。シーケンス内の異なるステップに独立した可変ノイズレベルを適用することで、この技術は機械学習モデルが非常に一貫した時系列データを生成することを可能にします。離散トークンを1つずつ予測するか、シーケンス全体を同時にノイズ除去する従来のメソッドとは異なり、Diffusion Forcingは、複雑で長期的な依存関係を持つ連続状態を処理する、堅牢なプランナーおよびシーケンスジェネレーターとして機能するようにモデルをトレーニングします。
その核となるDiffusion Forcingは、再帰型ニューラルネットワークで用いられる古典的なティーチャー・フォーシングから着想を得ています。しかし、次のステップを予測するために真の離散トークンを供給する代わりに、部分的にノイズが付加された連続履歴を因果的トランスフォーマーに供給します。モデルは過去の条件に基づいて現在の状態をデノイズすることを学習します。これにより、ネットワークはフレームごとにノイズレベルを動的に調整でき、局所的な精度と広範な時間的認識の両方を必要とするタスクに対して柔軟なフレームワークを提供します。
このアプローチは、長期計画を遵守しながら予測不可能な環境に反応しなければならないインテリジェントなAIエージェントを構築する際に非常に有益であり、標準的な自己回帰モデルでよく見られる複合誤差の問題を回避します。
Diffusion Forcingは、いくつかの複雑な人工知能分野で急速に注目を集めています。
これらは根本的なノイズ除去メカニズムを共有していますが、Diffusion Forcingは標準的な拡散モデルとは明確に異なります。テキストから画像への生成に使用されるような従来の拡散モデルは、通常、単一の静的出力のすべてのピクセルまたは潜在変数を同時にノイズ除去します。対照的に、Diffusion Forcingは時間系列を明示的にモデル化し、ネットワークに因果順序を尊重させます。これにより、軌道予測や行動認識のような時間的タスクにはるかに適しています。
ディフュージョン・フォーシングは主に生成シーケンスタスクに適用されますが、現代のビジョンパイプラインでは時間的シーケンスの解釈も同様に重要です。例えば、Ultralytics YOLO26を使用すると、連続するビデオフレーム間でオブジェクトを効率的にtrackできます。これは、object tracking中に時間的一貫性をネイティブに処理します。
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")
# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)
# Iterate through the sequence of frames
for frame_result in results:
# Access temporal tracking IDs for objects in the current state
print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")
シーケンスデータ収集をスケールアップし、高度なビジョンモデルをトレーニングしたいチームにとって、Ultralytics Platformは、複雑なデータセットを管理し、実験をtrackし、モデルをエッジにネイティブにデプロイするための堅牢なクラウドベースのツールを提供します。PyTorchで最先端の因果transformerを実験している場合でも、リアルタイムのtrackシステムをデプロイしている場合でも、空間データと時間データの交差を習得することは、AIの未来にとって不可欠です。

未来の機械学習で、新たな一歩を踏み出しましょう。