Glossaire

Modèle multimodal

Découvrez comment les modèles d'IA multimodale intègrent le texte, les images et d'autres éléments pour créer des systèmes robustes et polyvalents destinés à des applications réelles.

Un modèle multimodal est un système d'intelligence artificielle capable de traiter et de comprendre des informations provenant de plusieurs types de données (ou "modalités") simultanément. Contrairement aux modèles traditionnels qui ne traitent que du texte ou des images, un modèle multimodal peut interpréter ensemble du texte, des images, du son et d'autres sources de données, ce qui permet d'obtenir une compréhension plus complète et plus proche de celle de l'homme. Cette capacité à intégrer divers flux de données constitue une étape importante vers des systèmes d'IA plus avancés et plus conscients du contexte, capables de s'attaquer à des tâches complexes qui nécessitent de comprendre le monde à partir de perspectives multiples. Cette approche est fondamentale pour l'avenir de l'IA dans notre vie quotidienne.

Fonctionnement des modèles multimodaux

L'innovation principale des modèles multimodaux réside dans leur architecture, qui est conçue pour trouver et apprendre les relations entre les différents types de données. L'architecture Transformer, détaillée à l'origine dans l'article révolutionnaire "Attention Is All You Need", est une technologie clé qui permet d'atteindre cet objectif. Cette architecture utilise des mécanismes d'attention pour évaluer l'importance des différentes parties des données d'entrée, qu'il s'agisse de mots dans une phrase ou de pixels dans une image. Le modèle apprend à créer des représentations partagées, ou encastrements, qui capturent le sens de chaque modalité dans un espace commun.

Ces modèles sophistiqués sont souvent construits à l'aide de puissants cadres d'apprentissage profond (DL) tels que PyTorch et TensorFlow. Le processus d'entraînement consiste à alimenter le modèle avec de vastes ensembles de données contenant des données appariées, telles que des images avec des légendes textuelles, ce qui lui permet d'apprendre les connexions entre les modalités.

Applications dans le monde réel

Les modèles multimodaux alimentent déjà un large éventail d'applications innovantes. En voici deux exemples marquants :

  1. Réponse aux questions visuelles (VQA) : Un utilisateur peut fournir une image à un modèle et poser une question en langage naturel, telle que "Quel type de fleur se trouve sur la table ?" Le modèle traite à la fois les informations visuelles et la requête textuelle pour fournir une réponse pertinente. Cette technologie présente un potentiel important dans des domaines tels que l'éducation et les outils d'accessibilité pour les malvoyants.
  2. Génération d'images à partir d'un texte : Des modèles tels que DALL-E 3 et Midjourney d'OpenAI prennent un texte (par exemple, "Un paysage urbain futuriste au coucher du soleil, avec des voitures volantes") et génèrent une image unique correspondant à la description. Cette forme d'IA générative est en train de révolutionner les industries créatives, du marketing à la conception de jeux.

Concepts clés et distinctions

Pour comprendre les modèles multimodaux, il faut se familiariser avec les concepts connexes :

  • Apprentissage multimodal: Il s'agit d'un sous-domaine de l'apprentissage automatique qui se concentre sur le développement d'algorithmes et de techniques utilisés pour former des modèles multimodaux. Il aborde des défis tels que l'alignement des données et les stratégies de fusion, souvent abordés dans les documents universitaires. En bref, l'apprentissage multimodal est le processus, tandis que le modèle multimodal est le résultat.
  • Modèles de fondation: De nombreux modèles de base modernes, tels que le GPT-4, sont intrinsèquement multimodaux, capables de traiter à la fois du texte et des images. Ces grands modèles servent de base qui peut être affinée pour des tâches spécifiques.
  • les grands modèles de langage (LLM): Bien qu'apparentés, les LLM se concentrent traditionnellement sur le traitement du texte. Les modèles multimodaux sont plus larges, explicitement conçus pour traiter et intégrer des informations provenant de différents types de données, au-delà du simple langage. La frontière s'estompe toutefois avec l'essor des modèles de langage visuel (VLM).
  • Modèles de vision spécialisés : Les modèles multimodaux diffèrent des modèles de vision par ordinateur (CV) spécialisés comme Ultralytics YOLO. Alors qu'un modèle multimodal comme GPT-4 peut décrire une image ("Il y a un chat assis sur un tapis"), un modèle YOLO excelle dans la détection d'objets ou la segmentation d'instances, localisant précisément le chat à l'aide d'une boîte englobante ou d'un masque de pixels. Ces modèles peuvent être complémentaires : YOLO identifie l'emplacement des objets, tandis qu'un modèle multimodal peut interpréter la scène ou répondre à des questions à son sujet. Consultez les comparaisons entre différents modèles YOLO.

Le développement et le déploiement de ces modèles impliquent souvent des plateformes comme Ultralytics HUB, qui peuvent aider à gérer les ensembles de données et les flux de travail de formation des modèles. La capacité de relier différents types de données fait des modèles multimodaux une étape vers une IA plus complète, contribuant potentiellement à la future Intelligence Générale Artificielle (AGI).

Rejoindre la communauté Ultralytics

Rejoignez l'avenir de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

S'inscrire
Lien copié dans le presse-papiers