Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Diffusion Transformer (DiT)

Découvre comment les Diffusion Transformers (DiT) fusionnent les transformers avec les modèles de diffusion pour une synthèse haute fidélité. Apprends-en plus sur la mise à l'échelle, Sora et Ultralytics YOLO26.

Un Diffusion Transformer (DiT) est une architecture générative avancée qui fusionne la puissance de traitement séquentiel des transformers avec les capacités de synthèse d'image haute fidélité des diffusion models. Traditionnellement, les systèmes basés sur la diffusion s'appuyaient fortement sur des architectures U-Net convolutives pour débruiter les entrées et générer des images de manière itérative. Les DiT remplacent cette épine dorsale U-Net par une architecture transformer évolutive, traitant les données visuelles comme une séquence de patchs, de manière similaire à la façon dont un Vision Transformer (ViT) analyse les images. Ce changement de paradigme permet aux modèles de passer à l'échelle de manière plus prévisible, en exploitant des ressources de calcul accrues pour produire des résultats de plus en plus photoréalistes et cohérents.

Link to this sectionDifférencier les DiT et les modèles de diffusion traditionnels#

Alors que les modèles de diffusion traditionnels sont fondamentaux pour l'Generative AI moderne, leurs épines dorsales U-Net rencontrent souvent des goulots d'étranglement lorsqu'ils montent en charge vers des nombres massifs de paramètres. En revanche, les Diffusion Transformers héritent nativement des lois d'échelle observées dans les Large Language Models (LLMs). En éliminant les biais de sous-échantillonnage spatial et en utilisant des mécanismes d'auto-attention globale, un DiT apprend des relations spatiales complexes à travers une image entière ou une trame vidéo. Pour approfondir les origines de ce comportement de mise à l'échelle, tu peux consulter le article de recherche original sur les DiT publié sur arXiv qui a établi ces benchmarks d'efficacité.

Link to this sectionApplications concrètes#

La flexibilité et l'évolutivité des Diffusion Transformers ont déclenché des percées significatives dans divers secteurs de la computer vision :

  1. Génération vidéo haute fidélité : L'application la plus importante de l'architecture DiT se trouve dans les modèles texte-vidéo, tels que le modèle Sora d'OpenAI. En comprenant la cohérence temporelle et l'espace 3D, les DiT peuvent synthétiser des clips vidéo hyper-réalistes d'une minute qui maintiennent une logique physique image par image, révolutionnant ainsi la création de contenu numérique et les effets visuels.

  2. Synthèse d'image avancée : Dans le design commercial et la génération d'art par artificial intelligence, les DiT offrent une fidélité texte-image sans précédent. Ils sont utilisés par les agences créatives pour générer des ressources marketing très précises, en rendant des prompts complexes avec une typographie précise et un réalisme compositionnel que les modèles U-Net antérieurs avaient du mal à atteindre.

Link to this sectionImplémentation des concepts de Transformer#

Bien que les DiT soient principalement utilisés pour des tâches génératives lourdes, tu peux explorer les mécanismes fondamentaux d'auto-attention sur lesquels ils s'appuient en utilisant des bibliothèques de deep learning standard. L'extrait Python suivant utilise PyTorch pour démontrer comment des patchs d'image aplatis sont traités à travers une couche transformer, une opération centrale au sein d'un réseau DiT.

import torch
import torch.nn as nn

# Define a standard Transformer layer acting as a DiT building block
transformer_layer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

# Simulate flattened latent image patches (Sequence Length, Batch Size, Features)
latent_patches = torch.rand(196, 1, 256)

# Apply self-attention to process and relate patches globally
output_features = transformer_layer(latent_patches)
print(f"Processed feature shape: {output_features.shape}")

Pour des détails techniques complets sur les couches d'attention, la documentation PyTorch sur les modules Transformer constitue un excellent point de départ.

Link to this sectionRelier la génération et la détection#

Les Diffusion Transformers représentent la pointe de la génération de contenu, mais de nombreux flux de travail en entreprise nécessitent une analyse visuelle en temps réel plutôt qu'une synthèse. Pour les tâches exigeant une inférence à haute vitesse, telles que l'object detection et l'image segmentation, les modèles légers optimisés pour la périphérie restent la norme de l'industrie.

Ultralytics YOLO26 est conçu précisément pour ces computer vision tasks analytiques. Il offre une vitesse et une précision inégalées nativement dès la sortie de boîte, évitant la surcharge de calcul lourde requise par les transformers génératifs massifs. Pour passer sans effort de la création de jeux de données au déploiement en entreprise, les développeurs s'appuient sur l'Ultralytics Platform, une solution de bout en bout pour gérer des pipelines d'IA visuelle robustes. Pour une perspective plus large sur la comparaison entre les modèles génératifs et les modèles analytiques, le Machine Learning Crash Course de Google offre un excellent contexte fondamental.

Explore solutions

Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI tailored to your operation

L'IA dans l'agriculture

Apporte l'IA visuelle à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your operation

L'IA dans le secteur automobile

Applique la vision par ordinateur au secteur automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance au conducteur et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur de la santé

Crée tes solutions de santé avec les modèles Ultralytics YOLO. L'IA visuelle dans le secteur de la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et un meilleur suivi des patients.

En savoir plus
Real-time AI that works with your team

L'IA dans le secteur du commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. L'IA visuelle propulse le suivi des stocks, la surveillance des rayons, la gestion des files d'attente et des analyses client plus intelligentes.

En savoir plus
Real-time AI that works with your team

L'IA en robotique

Booste tes machines intelligentes avec les modèles Ultralytics YOLO. L'IA visuelle en robotique permet la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. L'IA visuelle permet le contrôle qualité, la détection de défauts, la conformité des EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Optimise ta logistique avec les modèles Ultralytics YOLO. L'IA par vision permet l'inspection de colis, le tri, le suivi de véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique