Glossaire

Diffusion stable

Découvrez la diffusion stable, un modèle d'IA de pointe qui permet de générer des images réalistes à partir de textes, révolutionnant ainsi la créativité et l'efficacité.

Stable Diffusion est un modèle d'IA générative puissant et populaire, publié par Stability AI en 2022. Il est principalement connu pour sa capacité à créer des images détaillées et de haute qualité à partir de simples descriptions textuelles, un processus connu sous le nom de synthèse texte-image. En tant que modèle de diffusion latente, il représente une avancée significative en rendant la génération d'images de haute performance accessible à un public plus large de développeurs, d'artistes et de chercheurs en raison de sa nature open-source et de ses exigences de calcul relativement modestes par rapport à d'autres modèles à grande échelle.

Comment fonctionne la diffusion stable

À la base, la diffusion stable fonctionne selon les principes d'un processus de diffusion. Le modèle est d'abord entraîné en prenant un grand nombre d'images et en y ajoutant progressivement du "bruit" (statique aléatoire) jusqu'à ce que l'image originale soit complètement obscurcie. Il apprend ensuite à inverser ce processus, en partant d'un bruit pur et en le débruitant progressivement, étape par étape, pour former une image cohérente correspondant à un texte donné.

Ce qui rend la diffusion stable particulièrement efficace, c'est qu'elle exécute ce processus de diffusion dans un "espace latent" de dimension inférieure plutôt que dans l'espace de haute dimension des pixels. Cette approche, décrite dans le document de recherche original sur le modèle de diffusion latente, réduit considérablement la puissance de calcul nécessaire pour l'apprentissage et l'inférence, ce qui permet au modèle de fonctionner sur des GPU grand public. Le modèle utilise un codeur de texte, comme CLIP, pour interpréter le texte demandé par l'utilisateur et guider le processus de débruitage vers l'image souhaitée.

Diffusion stable et autres modèles génératifs

La diffusion stable se distingue des autres modèles génératifs importants par ses caractéristiques uniques :

  • Comparé à DALL-E et Midjourney : Bien que des modèles tels que DALL-E 3 et Midjourney d'OpenAI produisent des résultats stupéfiants, ils sont propriétaires et essentiellement proposés sous la forme de services payants. Le principal avantage de Stable Diffusion est qu'il s'agit d'un logiciel libre. Cela permet à quiconque de télécharger le modèle, d'examiner son architecture et de l'affiner sur des ensembles de données personnalisés à des fins spécifiques, sans avoir à demander d'autorisation.
  • Comparé aux GAN : Les réseaux adversoriels génératifs (GAN) sont une autre classe de modèles génératifs. Les modèles de diffusion tels que la diffusion stable offrent généralement une formation plus stable et excellent souvent dans la génération d'une gamme plus variée d'images de haute fidélité. Les GANs, cependant, peuvent parfois être plus rapides pour générer des images puisqu'ils ne nécessitent généralement qu'un seul passage.

Applications dans le monde réel

La flexibilité et l'accessibilité de la diffusion stable ont conduit à son adoption dans de nombreux domaines.

  • Arts créatifs et divertissement : Les artistes et les concepteurs utilisent Stable Diffusion pour la création de concepts, le story-board et la création de ressources visuelles uniques. Par exemple, un développeur de jeux peut générer des dizaines de concepts de personnages ou d'arrière-plans environnementaux en quelques minutes, ce qui accélère considérablement le flux de travail créatif. Des outils comme Adobe Firefly ont intégré des technologies génératives similaires pour améliorer les suites logicielles créatives.
  • Génération de données synthétiques : Dans le domaine de la vision par ordinateur, il est essentiel de disposer de données d'entraînement de haute qualité. Stable Diffusion peut générer de grandes quantités de données synthétiques réalistes pour compléter les ensembles de données du monde réel. Par exemple, pour améliorer un modèle de détection d'objets comme Ultralytics YOLO, les développeurs peuvent générer des images d'objets dans différentes conditions d'éclairage, d'orientation et de configuration, améliorant ainsi la robustesse et la précision du modèle, en particulier pour les classes d'objets rares.

Développement et écosystème

Travailler avec Stable Diffusion est facilité par un riche écosystème d'outils et de bibliothèques. Des frameworks comme PyTorch sont fondamentaux pour son fonctionnement. La bibliothèque Hugging Face Diffusers est devenue un standard pour télécharger, exécuter et expérimenter facilement la diffusion stable et d'autres modèles de diffusion. Alors que Stable Diffusion excelle dans la génération, des plateformes comme Ultralytics HUB fournissent un environnement complet pour le cycle de vie plus large de l'apprentissage automatique, y compris la gestion des ensembles de données et le déploiement de modèles d'IA discriminatifs pour des tâches telles que la segmentation et la classification d'images. La montée en puissance d'outils génératifs aussi puissants met également en avant des discussions importantes sur l'éthique de l'IA, y compris le potentiel de création de deepfakes et de renforcement des biais algorithmiques.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers