Diffusion Models
Découvre comment les modèles de diffusion utilisent l'IA générative pour créer des données haute fidélité. Apprends dès aujourd'hui à améliorer l'entraînement d'Ultralytics YOLO26 avec des données synthétiques réalistes.
Les modèles de diffusion sont une classe d'algorithmes d'IA générative qui apprennent à créer de nouveaux échantillons de données en inversant un processus progressif d'ajout de bruit. Contrairement aux modèles discriminatifs traditionnels utilisés pour des tâches comme la détection d'objets ou la classification, qui prédisent des étiquettes à partir de données, les modèles de diffusion se concentrent sur la génération de contenu haute fidélité — notamment des images, de l'audio et de la vidéo — qui imite étroitement les propriétés statistiques des données du monde réel. Ils sont rapidement devenus la solution de pointe pour la synthèse d'images haute résolution, dépassant les anciens leaders comme les réseaux antagonistes génératifs (GAN) en raison de leur stabilité à l'entraînement et de leur capacité à générer des sorties diversifiées.
Link to this sectionComment fonctionnent les modèles de diffusion#
Le mécanisme central d'un modèle de diffusion est basé sur la thermodynamique hors équilibre. Le processus d'entraînement comprend deux phases distinctes : le processus direct (diffusion) et le processus inverse (débruitage).
- Processus direct : Cette phase détruit systématiquement la structure d'une image d'entraînement en ajoutant de petites quantités de bruit gaussien sur une série d'étapes temporelles. À mesure que le processus se poursuit, les données complexes (comme la photo d'un chat) se transforment progressivement en un bruit aléatoire pur et non structuré.
- Processus inverse : L'objectif du réseau de neurones est d'apprendre à inverser cette corruption. En partant d'un bruit aléatoire, le modèle prédit le bruit qui a été ajouté à chaque étape et le soustrait. En supprimant le bruit de manière itérative, le modèle « débruite » le signal aléatoire jusqu'à ce qu'une image cohérente et de haute qualité émerge.
Ce raffinement itératif permet un contrôle exceptionnel sur les détails fins et la texture, un avantage significatif par rapport aux méthodes de génération en une seule étape.
Link to this sectionApplications concrètes#
Les modèles de diffusion ont dépassé le stade de la recherche universitaire pour devenir des outils pratiques de niveau production dans divers secteurs.
- Génération de données synthétiques : L'une des applications les plus précieuses pour les ingénieurs en vision par ordinateur est la création de données synthétiques pour augmenter les jeux de données d'entraînement. Si un jeu de données manque de diversité — par exemple, s'il manque des images de voitures dans des conditions enneigées — un modèle de diffusion peut générer des variations réalistes. Cela aide à améliorer la robustesse des modèles de vision comme YOLO26 lorsqu'ils sont déployés dans des environnements imprévisibles.
- Inpainting et retouche d'images : Les modèles de diffusion alimentent des outils de retouche avancés qui permettent aux utilisateurs de modifier des régions spécifiques d'une image. Cette technique, appelée inpainting, peut supprimer des objets indésirables ou combler les parties manquantes d'une photo en fonction du contexte environnant. Les architectes et les designers l'utilisent pour le prototypage rapide, visualisant les changements apportés aux produits ou aux environnements sans avoir besoin de rendu 3D manuel.
Link to this sectionDifférencier les termes clés#
Il est utile de distinguer les modèles de diffusion des autres architectures génératives :
- Modèles de diffusion vs GANs : Alors que les GANs utilisent deux réseaux en compétition (un générateur et un discriminateur) et sont connus pour leur échantillonnage rapide, ils souffrent souvent d'un « effondrement de mode », où le modèle produit une variété limitée de sorties. Les modèles de diffusion sont généralement plus stables pendant l'entraînement et couvrent la distribution des données de manière plus exhaustive, bien qu'ils puissent être plus lents lors de l'inférence.
- Modèles de diffusion vs VAEs : Les autoencodeurs variationnels (VAEs) compressent les données dans un espace latent puis les reconstruisent. Bien que les VAEs soient rapides, leurs images générées peuvent parfois sembler floues par rapport aux détails nets produits par les processus de diffusion.
Link to this sectionMise en œuvre pratique#
Bien que l'entraînement d'un modèle de diffusion à partir de zéro nécessite une puissance de calcul importante, tu peux exploiter des modèles pré-entraînés ou les intégrer dans des flux de travail avec des détecteurs efficaces. Par exemple, tu pourrais utiliser un modèle de diffusion pour générer des variations d'arrière-plan pour un jeu de données, puis utiliser la plateforme Ultralytics pour annoter et entraîner un modèle de détection sur ces données enrichies.
Tu trouveras ci-dessous un exemple conceptuel utilisant torch pour simuler une étape simple de diffusion directe (ajout de bruit), qui constitue la base de l'entraînement de ces systèmes.
import torch
def add_noise(image_tensor, noise_level=0.1):
"""Simulates a single step of the forward diffusion process by adding Gaussian noise."""
# Generate Gaussian noise with the same shape as the input image
noise = torch.randn_like(image_tensor) * noise_level
# Add noise to the original image
noisy_image = image_tensor + noise
# Clamp values to ensure they remain valid image data (e.g., 0.0 to 1.0)
return torch.clamp(noisy_image, 0.0, 1.0)
# Create a dummy image tensor (3 channels, 64x64 pixels)
dummy_image = torch.rand(1, 3, 64, 64)
noisy_result = add_noise(dummy_image)
print(f"Original shape: {dummy_image.shape}, Noisy shape: {noisy_result.shape}")Link to this sectionOrientations futures#
Le domaine évolue rapidement vers les modèles de diffusion latente (LDM), qui fonctionnent dans un espace latent compressé plutôt que dans l'espace des pixels pour réduire les coûts de calcul. Cette efficacité rend possible l'exécution de modèles génératifs puissants sur du matériel grand public. À mesure que la recherche progresse, nous prévoyons une intégration plus étroite entre les entrées génératives et les tâches discriminatives, comme l'utilisation de scénarios générés par diffusion pour valider la sécurité des véhicules autonomes ou améliorer l' analyse d'images médicales en simulant des pathologies rares.






