Glossaire

Forçage de diffusion

Découvrez Diffusion Forcing, un paradigme de modélisation générative qui combine la prédiction autorégressive et la diffusion de séquences pour générer des données temporelles cohérentes.

La « diffusion forcée » est un paradigme avancé de modélisation générative introduit en 2024 qui combine les atouts de la prédiction autorégressive du token suivant avec la diffusion sur séquence complète. En appliquant des niveaux de bruit indépendants et variables à différentes étapes d'une séquence, cette technique permet aux modèles d'apprentissage automatique de générer des données temporelles hautement cohérentes. Contrairement aux méthodes traditionnelles qui prédisent des tokens discrets un par un ou débruitent une séquence entière simultanément, le Diffusion Forcing forme les modèles à agir comme des planificateurs et des générateurs de séquences robustes, capables de gérer des états continus présentant des dépendances complexes à long terme.

Comment fonctionne le forçage de diffusion

Fondamentalement, la méthode Diffusion Forcing s'inspire du « teacher forcing » classique utilisé dans les réseaux neuronaux récurrents. Cependant, au lieu d’alimenter un transformateur causal avec des jetons discrets de référence pour prédire l’étape suivante, il lui fournit des historiques continus partiellement bruités. Le modèle apprend à débruiter l’état actuel en fonction du passé. Cela permet au réseau d’ajuster dynamiquement le niveau de bruit par image, offrant ainsi un cadre flexible pour les tâches qui nécessitent à la fois une précision localisée et une large conscience temporelle.

Cette approche s'avère particulièrement utile lors de la conception d'agents IA intelligents qui doivent réagir à des environnements imprévisibles tout en respectant un plan à long terme, ce qui permet d'éviter les problèmes d'accumulation d'erreurs que l'on rencontre souvent dans les modèles autorégressifs classiques.

Applications concrètes

Le « diffusion forcing » connaît un essor rapide dans plusieurs domaines complexes de l'intelligence artificielle:

Robotique et contrôle visuo-moteur: les bras robotiques autonomes et les systèmes de conduite autonome utilisent la « diffusion forcée » pour générer des trajectoires fluides et continues. En anticipant des séquences de commandes motrices continues, les robots peuvent s'adapter aux obstacles dynamiques tout en conservant une trajectoire stable vers leur objectif.
Génération et prévision vidéo: dans les pipelines avancés de vision par ordinateur, les modèles exploitent cette technique pour prédire les images vidéo futures avec une cohérence temporelle rigoureuse, évitant ainsi les artefacts de scintillement fréquemment observés dans les approches génératives antérieures.

Forçage de diffusion vs modèles de diffusion standard

Bien qu'ils partagent un mécanisme fondamental de débruitage, le Diffusion Forcing se distingue nettement des modèles de diffusion classiques. Les modèles de diffusion traditionnels, tels que ceux utilisés pour la génération de texte en image, débruisent généralement tous les pixels ou variables latentes d'une sortie statique unique simultanément. En revanche, le Diffusion Forcing modélise explicitement une série chronologique, forçant le réseau à respecter l'ordre causal des séquences. Cela le rend bien plus adapté aux tâches temporelles telles que la prédiction de trajectoire et la reconnaissance d'actions.

L'intégration du traitement des séquences dans la pratique

Si le « diffusion forcing » s'applique principalement aux tâches de génération de séquences, l'interprétation des séquences temporelles revêt une importance tout aussi cruciale dans les pipelines de vision modernes. Par exemple, il est possible track efficacement track d'une image à l'autre dans une vidéo à l'aide Ultralytics , qui gère la cohérence temporelle de manière native lors du suivi d'objets.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for high-speed inference
model = YOLO("yolo26n.pt")

# Process a temporal sequence (video) to maintain consistent object identities
results = model.track(source="path/to/video.mp4", stream=True)

# Iterate through the sequence of frames
for frame_result in results:
    # Access temporal tracking IDs for objects in the current state
    print(f"Tracked {len(frame_result.boxes)} objects in the current frame.")

Pour les équipes qui souhaitent étendre la collecte de données séquentielles et entraîner des modèles de vision avancés, la Ultralytics fournit des outils cloud robustes permettant de gérer des ensembles de données complexes, track et de déployer des modèles en mode natif en périphérie. Que vous expérimentiez avec des transformateurs causaux de pointe dans PyTorch ou que vous déployiez des systèmes de suivi en temps réel, la maîtrise de l'intersection entre les données spatiales et temporelles est essentielle pour l'avenir de l'IA.

Forçage de diffusion

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Comment fonctionne le forçage de diffusion

Applications concrètes

Forçage de diffusion vs modèles de diffusion standard

L'intégration du traitement des séquences dans la pratique

En savoir plus dans cette catégorie

Comment exporterYOLO Ultralytics à l'aide de Ultralytics

Détection d'un empilage de palettes dangereux à l'aide d'Ultralytics

Guide d'annotation des polygones avec Ultralytics

Construisons ensemble l'avenir de l'IA !

Forçage de diffusion

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Comment fonctionne le forçage de diffusion

Applications concrètes

Forçage de diffusion vs modèles de diffusion standard

L'intégration du traitement des séquences dans la pratique

En savoir plus dans cette catégorie

Comment exporterYOLO Ultralytics à l'aide de Ultralytics

Détection d'un empilage de palettes dangereux à l'aide d'Ultralytics

Guide d'annotation des polygones avec Ultralytics

Construisons ensemble l'avenir de l'IA !

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.