Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèles de diffusion

Découvrez comment les modèles de diffusion révolutionnent l'IA générative en créant des images, des vidéos et des données réalistes avec des détails et une stabilité inégalés.

Les modèles de diffusion sont une classe de modèles génératifs qui sont devenus une pierre angulaire de l'IA générative moderne. Ils sont conçus pour créer de nouvelles données, telles que des images ou des sons, qui sont similaires aux données sur lesquelles ils ont été entraînés. L'idée centrale est inspirée de la thermodynamique. Le modèle apprend à inverser un processus d'ajout progressif de bruit à une image jusqu'à ce qu'elle devienne statique pure. En apprenant ce processus de "débruitage", le modèle peut partir d'un bruit aléatoire et l'affiner progressivement en un échantillon cohérent et de haute qualité. Ce processus d'affinage étape par étape est essentiel à leur capacité à générer des sorties très détaillées et réalistes.

Comment fonctionnent les modèles de diffusion ?

Le processus derrière les modèles de diffusion implique deux étapes principales :

  1. Processus direct (Diffusion) : Dans cette étape, une image claire est systématiquement dégradée en ajoutant une petite quantité de bruit gaussien sur de nombreuses étapes. Cela continue jusqu'à ce que l'image soit indiscernable du bruit pur. Ce processus direct est fixe et n'implique aucun apprentissage ; il fournit simplement une cible pour que le modèle apprenne à inverser.
  2. Processus inverse (Débruitage) : C'est là que l'apprentissage se produit. Un réseau neuronal est entraîné à prendre une image bruitée du processus direct et à prédire le bruit qui a été ajouté à l'étape précédente. En soustrayant à plusieurs reprises ce bruit prédit, le modèle peut commencer avec une image complètement aléatoire (bruit pur) et la transformer progressivement en une image propre et claire. Ce processus de débruitage appris est ce qui permet au modèle de générer de nouvelles données à partir de zéro. L'article fondateur, "Denoising Diffusion Probabilistic Models", a jeté une grande partie des bases de cette approche.

Modèles de diffusion vs. autres modèles génératifs

Les modèles de diffusion diffèrent considérablement des autres approches génératives populaires comme les réseaux antagonistes génératifs (GAN).

  • Stabilité de l'entraînement : Les modèles de diffusion ont généralement un processus d'entraînement plus stable que les GAN. Les GAN impliquent un jeu contradictoire complexe entre un générateur et un discriminateur, qui peut parfois être difficile à équilibrer et peut ne pas converger.
  • Qualité et diversité des échantillons : Bien que les deux puissent produire des résultats de haute qualité, les modèles de diffusion excellent souvent dans la génération d'images très diverses et photoréalistes, surpassant parfois les GAN sur certains benchmarks. Cette qualité peut cependant se faire au prix d'une latence d'inférence plus élevée.
  • Vitesse d'inférence : Traditionnellement, les modèles de diffusion sont plus lents à générer des échantillons, car ils nécessitent de nombreuses étapes itératives de débruitage. En revanche, les GAN peuvent générer un échantillon en un seul passage direct. Cependant, la recherche active et les techniques telles que la distillation des connaissances réduisent rapidement cet écart de vitesse.

Applications concrètes

Les modèles de diffusion alimentent une nouvelle vague de créativité et d'innovation dans divers domaines :

  • Génération d'images haute fidélité : C'est l'application la plus connue. Les modèles développés par des entreprises comme Stability AI et OpenAI peuvent créer des images incroyablement réalistes et artistiques à partir de simples invites textuelles. Les exemples les plus connus incluent Stable Diffusion, DALL-E 3, Midjourney et Imagen de Google. Ces outils ont transformé l'art numérique et la création de contenu.
  • Édition et retouche d'images : Ils ne servent pas seulement à créer des images à partir de zéro. Les modèles de diffusion peuvent modifier intelligemment des images existantes en fonction d'instructions, telles que l'ajout ou la suppression d'objets, la modification de styles artistiques ou le remplissage de parties manquantes d'une photo (retouche). Des outils comme Adobe Firefly exploitent ces capacités.
  • Synthèse audio et vidéo : Les principes de la diffusion sont également appliqués à d'autres types de données. Des modèles comme AudioLDM peuvent générer des effets vocaux, de la musique et des effets sonores réalistes, tandis que des modèles comme Sora d'OpenAI repoussent les limites de la génération texte-vidéo.
  • Augmentation de données : En vision par ordinateur, les modèles de diffusion peuvent être utilisés pour générer des données d'entraînement synthétiques. Ceci est particulièrement utile pour améliorer la robustesse des modèles comme Ultralytics YOLO pour des tâches telles que la détection d'objets ou la segmentation d'images, en particulier lorsque les données du monde réel sont rares.

Outils et développement

Le développement et l'utilisation de modèles de diffusion impliquent généralement des frameworks d'apprentissage automatique comme PyTorch et TensorFlow. Pour faciliter le développement, des bibliothèques comme la bibliothèque Hugging Face Diffusers offrent des modèles pré-entraînés et des outils. Bien que ces outils se concentrent sur le modèle génératif lui-même, des plateformes comme Ultralytics HUB peuvent aider à gérer le flux de travail plus large, y compris la gestion des ensembles de données et le déploiement, complétant ainsi le développement de solutions d'IA complètes. À mesure que ces modèles se généralisent, il est crucial de tenir compte de l'éthique de l'IA et de relever des défis comme les biais algorithmiques.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers