Découvrez Diffusion Forcing, un paradigme de modélisation générative qui combine la prédiction autorégressive et la diffusion de séquences pour générer des données temporelles cohérentes.
La « diffusion forcée » est un paradigme avancé de modélisation générative introduit en 2024 qui combine les atouts de la prédiction autorégressive du token suivant avec la diffusion sur séquence complète. En appliquant des niveaux de bruit indépendants et variables à différentes étapes d'une séquence, cette technique permet aux modèles d'apprentissage automatique de générer des données temporelles hautement cohérentes. Contrairement aux méthodes traditionnelles qui prédisent des tokens discrets un par un ou débruitent une séquence entière simultanément, le Diffusion Forcing forme les modèles à agir comme des planificateurs et des générateurs de séquences robustes, capables de gérer des états continus présentant des dépendances complexes à long terme.
Fondamentalement, la méthode Diffusion Forcing s'inspire du « teacher forcing » classique utilisé dans les réseaux neuronaux récurrents. Cependant, au lieu d’alimenter un transformateur causal avec des jetons discrets de référence pour prédire l’étape suivante, il lui fournit des historiques continus partiellement bruités. Le modèle apprend à débruiter l’état actuel en fonction du passé. Cela permet au réseau d’ajuster dynamiquement le niveau de bruit par image, offrant ainsi un cadre flexible pour les tâches qui nécessitent à la fois une précision localisée et une large conscience temporelle.
Cette approche s'avère particulièrement utile lors de la conception d'agents IA intelligents qui doivent réagir à des environnements imprévisibles tout en respectant un plan à long terme, ce qui permet d'éviter les problèmes d'accumulation d'erreurs que l'on rencontre souvent dans les modèles autorégressifs classiques.
Le « diffusion forcing » connaît un essor rapide dans plusieurs domaines complexes de l'intelligence artificielle:
Bien qu'ils partagent un mécanisme fondamental de débruitage, le Diffusion Forcing se distingue nettement des modèles de diffusion classiques. Les modèles de diffusion traditionnels, tels que ceux utilisés pour la génération de texte en image, débruisent généralement tous les pixels ou variables latentes d'une sortie statique unique simultanément. En revanche, le Diffusion Forcing modélise explicitement une série chronologique, forçant le réseau à respecter l'ordre causal des séquences. Cela le rend bien plus adapté aux tâches temporelles telles que la prédiction de trajectoire et la reconnaissance d'actions.
Si le « diffusion forcing » s'applique principalement aux tâches de génération de séquences, l'interprétation des séquences temporelles revêt une importance tout aussi cruciale dans les pipelines de vision modernes. Par exemple, il est possible track efficacement track d'une image à l'autre dans une vidéo à l'aide Ultralytics , qui gère la cohérence temporelle de manière native lors du suivi d'objets.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")
# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)
# Iterate through the sequence of frames
for frame_result in results:
# Access temporal tracking IDs for objects in the current state
print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")
Pour les équipes qui souhaitent étendre la collecte de données séquentielles et entraîner des modèles de vision avancés, la Ultralytics fournit des outils cloud robustes permettant de gérer des ensembles de données complexes, track et de déployer des modèles en mode natif en périphérie. Que vous expérimentiez avec des transformateurs causaux de pointe dans PyTorch ou que vous déployiez des systèmes de suivi en temps réel, la maîtrise de l'intersection entre les données spatiales et temporelles est essentielle pour l'avenir de l'IA.


Commencez votre parcours avec l'avenir de l'apprentissage automatique