Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Diffusion Transformer (DiT)

Découvre comment les Diffusion Transformers (DiT) fusionnent les Transformers avec les modèles de diffusion pour une synthèse haute fidélité. Apprends-en davantage sur la mise à l'échelle, Sora et Ultralytics YOLO26.

Un Diffusion Transformer (DiT) est une architecture générative avancée qui fusionne la puissance de traitement séquentiel des transformers avec les capacités de synthèse d'image haute fidélité des diffusion models. Traditionnellement, les systèmes basés sur la diffusion s'appuyaient fortement sur des architectures U-Net convolutives pour débruiter les entrées de manière itérative et générer des images. Les DiT remplacent ce backbone U-Net par une architecture transformer évolutive, traitant les données visuelles comme une séquence de patchs, de manière similaire à la façon dont un Vision Transformer (ViT) analyse les images. Ce changement de paradigme permet aux modèles de passer à l'échelle de manière plus prévisible, en tirant parti de ressources de calcul accrues pour produire des résultats de plus en plus photoréalistes et cohérents.

Link to this sectionDifférencier le DiT et les modèles de diffusion traditionnels#

Bien que les modèles de diffusion traditionnels soient fondamentaux pour l'Generative AI moderne, leurs backbones U-Net rencontrent souvent des goulots d'étranglement lors du passage à l'échelle pour des nombres de paramètres massifs. En revanche, les Diffusion Transformers héritent nativement des lois d'échelle observées dans les Large Language Models (LLMs). En éliminant les biais de sous-échantillonnage spatial et en utilisant des mécanismes d'auto-attention globale, un DiT apprend des relations spatiales complexes sur l'ensemble d'une image ou d'une trame vidéo. Pour approfondir les origines de ce comportement d'échelle, tu peux consulter le papier de recherche original sur les DiT publié sur arXiv qui a établi ces benchmarks d'efficacité.

Link to this sectionApplications concrètes#

La flexibilité et l'évolutivité des Diffusion Transformers ont suscité des percées significatives dans divers secteurs de la computer vision :

  1. Génération vidéo haute fidélité : L'application la plus importante de l'architecture DiT se trouve dans les modèles texte-à-vidéo, tels que le modèle Sora d'OpenAI. En comprenant la cohérence temporelle et l'espace 3D, les DiT peuvent synthétiser des clips vidéo hyper-réalistes d'une minute qui maintiennent une logique physique image par image, révolutionnant la création de contenu numérique et les effets visuels.

  2. Synthèse d'image avancée : Dans le design commercial et la génération d'art par artificial intelligence, les DiT offrent une fidélité texte-à-image sans précédent. Ils sont utilisés par des agences créatives pour générer des actifs marketing très précis, rendant des prompts complexes avec une typographie précise et un réalisme compositionnel que les anciens modèles U-Net peinaient à atteindre.

Link to this sectionImplémenter les concepts de Transformer#

Bien que les DiT soient principalement utilisés pour des tâches génératives lourdes, tu peux explorer les mécanismes d'auto-attention fondamentaux sur lesquels ils reposent en utilisant des bibliothèques standards de deep learning. L'extrait Python suivant utilise PyTorch pour démontrer comment des patchs d'image aplatis sont traités via une couche transformer, une opération centrale au sein d'un réseau DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Pour des détails techniques complets sur les couches d'attention, la documentation PyTorch sur les modules Transformer constitue un excellent point de départ.

Link to this sectionFaire le pont entre génération et détection#

Les Diffusion Transformers représentent la pointe de la génération de contenu, mais de nombreux workflows en entreprise nécessitent une analyse visuelle en temps réel plutôt qu'une synthèse. Pour les tâches exigeant une inférence à haute vitesse, telles que l'object detection et l'image segmentation, les modèles légers optimisés pour l'edge restent la norme de l'industrie.

Ultralytics YOLO26 est conçu précisément pour ces computer vision tasks analytiques. Il offre une vitesse et une précision inégalées nativement, dès la sortie de boîte, en évitant la lourde surcharge computationnelle requise par les transformers génératifs massifs. Pour passer sans effort de la création de jeux de données au déploiement en entreprise, les développeurs s'appuient sur l'Ultralytics Platform, une solution de bout en bout pour gérer des pipelines d'IA visuelle robustes. Pour une perspective plus large sur la comparaison entre modèles génératifs et analytiques, le Machine Learning Crash Course de Google offre un excellent contexte fondamental.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique