Glossaire

Apprentissage multimodal

Découvrez la puissance de l'apprentissage multimodal en IA ! Explorez comment les modèles intègrent divers types de données pour une résolution plus riche des problèmes du monde réel.

L'apprentissage multimodal est un sous-domaine de l'intelligence artificielle (IA) et de l'apprentissage machine (ML) axé sur la conception et la formation de modèles capables de traiter et d'intégrer des informations provenant de plusieurs types de données distincts, appelés modalités. Les modalités courantes comprennent le texte, les images(vision par ordinateur), l'audio(reconnaissance vocale), la vidéo et les données de capteurs (comme le LiDAR ou les relevés de température). L'objectif principal de l'apprentissage multimodal est de construire des systèmes d'intelligence artificielle capables d'une compréhension plus holistique, semblable à celle des humains, de scénarios complexes en exploitant les informations complémentaires présentes dans différentes sources de données.

Définition et concepts de base

L'apprentissage multimodal consiste à former des algorithmes pour comprendre les relations et les corrélations entre différents types de données. Au lieu d'analyser chaque modalité isolément, le processus d'apprentissage se concentre sur les techniques permettant de combiner ou de fusionner efficacement les informations. Les concepts clés sont les suivants :

  • Fusion d'informations : Il s'agit des méthodes utilisées pour combiner les informations provenant de différentes modalités. La fusion peut intervenir à différents stades : précoce (combinaison des données brutes), intermédiaire (combinaison des caractéristiques extraites de chaque modalité) ou tardif (combinaison des résultats de modèles distincts formés sur chaque modalité). Une fusion efficace des informations est essentielle pour tirer parti des atouts de chaque type de données.
  • Apprentissage intermodal : Il s'agit d'apprendre des représentations où les informations d'une modalité peuvent être utilisées pour déduire ou récupérer des informations d'une autre modalité (par exemple, générer des légendes de texte à partir d'images).
  • Alignement des données : Veiller à ce que les éléments d'information correspondant à différentes modalités soient correctement mis en correspondance (par exemple, aligner les mots prononcés dans une piste audio avec les images visuelles correspondantes dans une vidéo). Un alignement correct des données est souvent une condition préalable à une fusion efficace.

L'apprentissage multimodal s'appuie fortement sur des techniques d'apprentissage profond (DL), en utilisant des architectures comme les transformateurs et les réseaux neuronaux convolutifs (CNN) adaptés pour traiter diverses entrées, souvent en utilisant des cadres comme PyTorch(site officiel de PyTorch) ou TensorFlow(site officiel de TensorFlow).

Pertinence et applications

L'intérêt de l'apprentissage multimodal réside dans sa capacité à créer des systèmes d'IA plus robustes et plus polyvalents, capables de s'attaquer à des problèmes complexes du monde réel où l'information est intrinsèquement multiforme. Aujourd'hui, de nombreux modèles d'IA avancés, y compris les grands modèles de fondation, exploitent les capacités multimodales.

Voici quelques exemples concrets de l'application de l'apprentissage multimodal :

Parmi les autres applications importantes, on peut citer la conduite autonome(IA dans les voitures auto-conduites), où les données des caméras, LiDAR et radars sont combinées par des entreprises comme Waymo, l'analyse d'images médicales combinant les données d'imagerie avec les dossiers des patients, et les applications de l'IA en robotique, où les robots intègrent des informations visuelles, auditives et tactiles pour interagir avec leur environnement(Robotics).

Distinctions clés

Il est utile de distinguer l'apprentissage multimodal des termes apparentés :

  • Modèles multimodaux: L'apprentissage multimodal est le processus ou le domaine d'étude relatif à la formation de l'intelligence artificielle à l'aide de plusieurs types de données. Les modèles multimodaux sont les systèmes ou architectures d'intelligence artificielle conçus et formés à l'aide de ces techniques.
  • Vision par ordinateur (VA): La vision artificielle se concentre exclusivement sur le traitement et la compréhension des données visuelles (images, vidéos). L'apprentissage multimodal va plus loin que la vision artificielle en intégrant des données visuelles à d'autres modalités telles que le texte ou l'audio.
  • Traitement du langage naturel (NLP) : Le TAL traite de la compréhension et de la production du langage humain (texte, parole). L'apprentissage multimodal intègre des données linguistiques à d'autres modalités telles que des images ou des relevés de capteurs.
  • Modèles de base: Il s'agit de modèles à grande échelle pré-entraînés sur de grandes quantités de données, souvent conçus pour s'adapter à diverses tâches en aval. De nombreux modèles de base modernes, comme le GPT-4, intègrent des capacités multimodales, mais les concepts sont distincts ; l'apprentissage multimodal est une méthodologie souvent employée dans la construction de ces puissants modèles.

Défis et orientations futures

L'apprentissage multimodal présente des défis uniques, notamment l'alignement efficace des données provenant de différentes sources, l'élaboration de stratégies de fusion optimales et le traitement des données manquantes ou bruyantes dans une ou plusieurs modalités. Relever ces défis dans le cadre de l'apprentissage multimodal reste un domaine de recherche actif.

Le domaine évolue rapidement, repoussant les limites vers des systèmes d'IA qui perçoivent et raisonnent sur le monde plus comme le font les humains, contribuant potentiellement au développement de l'Intelligence Générale Artificielle (AGI). Alors que les plateformes comme Ultralytics HUB facilitent actuellement les flux de travail principalement axés sur les tâches de vision par ordinateur en utilisant des modèles comme Ultralytics YOLO(par exemple, Ultralytics YOLOv8) pour la détection d'objets, le paysage plus large de l'IA pointe vers une intégration croissante des capacités multimodales. Gardez un œil sur le blogue d'Ultralytics pour des mises à jour sur les nouvelles capacités et applications des modèles. Pour un aperçu plus large du domaine, la page Wikipédia sur l'apprentissage multimodal propose des lectures complémentaires.

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers