Glossaire

IA générative

Découvrez comment l'IA générative crée des contenus originaux tels que du texte, des images et du son, transformant les industries grâce à des applications innovantes.

L'intelligence artificielle générative (IA) représente une branche importante du domaine plus large de l'intelligence artificielle (IA), se concentrant spécifiquement sur la création de systèmes capables de générer un contenu entièrement nouveau et original. Ce contenu peut couvrir diverses modalités, y compris le texte, les images, l'audio, le code et même les données synthétiques. Contrairement aux modèles d'IA discriminatifs, qui sont formés pour classifier ou faire des prédictions basées sur des données d'entrée (comme l'identification d'objets dans une image à l'aide de la détection d'objets), les modèles génératifs apprennent les modèles, les structures et les distributions de probabilité sous-jacents au sein d'un ensemble de données d'apprentissage. Ils utilisent ensuite ces connaissances acquises pour produire de nouveaux résultats qui imitent les caractéristiques des données d'origine. Des avancées récentes, notamment grâce à des architectures telles que les transformateurs génératifs pré-entraînés (GPT) et les modèles de diffusion, ont permis de créer des contenus remarquablement réalistes et complexes, repoussant ainsi les limites de la créativité des machines.

Comment fonctionne l'IA générative

L'idée centrale de la plupart des modèles génératifs est d'apprendre une représentation de la distribution des données. Une fois cette distribution apprise, le modèle peut l'échantillonner pour générer de nouveaux points de données qui sont statistiquement similaires aux données sur lesquelles il a été formé. Cela implique des architectures de réseaux neuronaux (RN) complexes et des techniques de formation sophistiquées. Parmi les architectures les plus importantes, on peut citer

IA générative et vision par ordinateur

Bien qu'il s'agisse de deux sous-domaines de l'IA, l'IA générative et la vision par ordinateur (VA) ont des objectifs fondamentalement différents. La vision par ordinateur vise à permettre aux machines d'interpréter et de comprendre les informations visuelles du monde, en effectuant des tâches telles que la classification d'images, la détection d'objets et la segmentation d'instances. L'IA générative, quant à elle, se concentre sur la création de nouveaux contenus visuels (ou autres).

Les principales différences mises en évidence lors de discussions telles que celles de YOLO Vision 2024 sont les suivantes :

  1. Taille du modèle : Les modèles génératifs, en particulier les LLM et les grands modèles d'images, contiennent souvent des milliards, voire des trillions de paramètres. Les modèles CV conçus pour l'analyse en temps réel, tels que Ultralytics YOLO11, sont généralement beaucoup plus petits et plus efficaces, certaines variantes n'ayant que quelques millions de paramètres(comparaison avec les modèles YOLO).
  2. Ressources informatiques : La formation et l'exécution de grands modèles génératifs nécessitent une puissance de calcul substantielle, impliquant souvent des grappes distribuées de GPU. De nombreux modèles CV, y compris ceux d'Ultralytics, sont optimisés pour l'efficacité et peuvent être déployés sur du matériel standard ou des appareils spécialisés à l' aide de frameworks tels que ONNX ou TensorRT.
  3. Objectif : CV analyse les données existantes ; l'IA générative synthétise de nouvelles données.

Malgré ces différences, les domaines sont de plus en plus interconnectés. L'IA générative s'avère précieuse pour la CV en générant des données synthétiques de haute qualité. Ces données synthétiques peuvent augmenter les ensembles de données du monde réel, aidant à former des modèles de CV plus robustes et plus précis, en particulier pour les scénarios où les données réelles sont rares ou difficiles à obtenir, comme dans les simulations de conduite autonome ou l'imagerie de maladies rares(IA dans le domaine de la santé).

Applications dans le monde réel

L'IA générative transforme de nombreuses industries :

  • Création de contenu : Automatisation de la génération d'articles, de textes marketing, de scripts(GPT-3), création d'images et de dessins uniques(Midjourney, DALL-E 3), composition de musique et génération de contenu vidéo(OpenAI Sora).
  • Génération de données synthétiques : Création d'ensembles de données réalistes pour l'entraînement de modèles de ML dans des domaines tels que la robotique, la finance(modèles de vision par ordinateur en finance) et les soins de santé, afin d'améliorer les performances des modèles et de résoudre les problèmes liés à la confidentialité des données. Par exemple, la génération d'images médicales synthétiques pour former des outils de diagnostic sans utiliser les données réelles des patients.
  • Découverte de médicaments et science des matériaux : Conception de nouvelles structures moléculaires et prédiction de leurs propriétés, accélération de la recherche et du développement, comme le démontrent des organisations telles que Google DeepMind.
  • Personnalisation : La personnalisation de l'expérience utilisateur grâce à la génération de contenu dynamique dans les chatbots, les assistants virtuels et les moteurs de recommandation.
  • Développement de logiciels : Aide aux développeurs en générant des extraits de code, en suggérant des corrections de bogues et même en créant des fonctions entières basées sur des descriptions en langage naturel(GitHub Copilot).

Défis et considérations éthiques

Les progrès rapides de l'IA générative entraînent également des défis. Il est primordial de garantir l'utilisation éthique de ces outils puissants, en particulier en ce qui concerne les deepfakes, la désinformation, les droits de propriété intellectuelle et les biais inhérents appris à partir des données d'entraînement. Pour y remédier, il faut développer des modèles avec soin, des méthodes de détection robustes et des lignes directrices claires énoncées dans les principes de l'éthique de l'IA. En outre, les importantes ressources informatiques nécessaires posent des problèmes d'environnement et d'accessibilité. Des plateformes comme Ultralytics HUB visent à rationaliser les flux de travail et à réduire potentiellement les barrières à l'entrée pour certaines tâches d'IA.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers