Connectez-vous à YOLO Vision 2025 !
25 septembre 2025
10:00 — 18:00, heure d'été britannique
Événement hybride
Yolo Vision 2024
Glossaire

Modèle multimodal

Découvrez comment les modèles d'IA multimodaux intègrent du texte, des images et bien plus encore pour créer des systèmes robustes et polyvalents pour des applications concrètes.

Un modèle multi-modal est un système d'intelligence artificielle capable de traiter et de comprendre simultanément des informations provenant de plusieurs types de données, ou "modalités". Contrairement aux modèles traditionnels qui ne peuvent traiter que du texte ou des images, un modèle multi-modal peut interpréter ensemble du texte, des images, de l'audio et d'autres sources de données, ce qui conduit à une compréhension plus complète et plus humaine. Cette capacité à intégrer divers flux de données est une étape importante vers des systèmes d'IA plus avancés et conscients du contexte, capables de s'attaquer à des tâches complexes qui nécessitent de comprendre le monde à partir de multiples perspectives. Cette approche est fondamentale pour l'avenir de l'IA dans notre vie quotidienne.

Fonctionnement des modèles multimodaux

L'innovation centrale des modèles multi-modaux réside dans leur architecture, qui est conçue pour trouver et apprendre les relations entre différents types de données. Une technologie clé qui rend cela possible est l'architecture Transformer, initialement détaillée dans l'article révolutionnaire « Attention Is All You Need. » Cette architecture utilise des mécanismes d'attention pour pondérer l'importance des différentes parties des données d'entrée, qu'il s'agisse de mots dans une phrase ou de pixels dans une image. Le modèle apprend à créer des représentations partagées, ou embeddings, qui capturent le sens de chaque modalité dans un espace commun.

Ces modèles sophistiqués sont souvent construits à l'aide de puissants frameworks d'apprentissage profond (DL) tels que PyTorch et TensorFlow. Le processus d'entraînement consiste à alimenter le modèle avec de vastes jeux de données contenant des données appariées, telles que des images avec des légendes textuelles, ce qui lui permet d'apprendre les liens entre les modalités.

Applications concrètes

Les modèles multimodaux alimentent déjà un large éventail d'applications innovantes. Voici deux exemples importants :

  1. Réponse visuelle aux questions (VQA) : Un utilisateur peut fournir à un modèle une image et poser une question en langage naturel, telle que « Quel type de fleur se trouve sur la table ? ». Le modèle traite à la fois les informations visuelles et la requête textuelle pour fournir une réponse pertinente. Cette technologie a un potentiel important dans des domaines tels que l'éducation et les outils d'accessibilité pour les personnes malvoyantes.
  2. Génération de texte en image : Les modèles comme DALL-E 3 d'OpenAI et Midjourney prennent une invite textuelle (par exemple, « Un paysage urbain futuriste au coucher du soleil, avec des voitures volantes ») et génèrent une image unique qui correspond à la description. Cette forme d'IA générative révolutionne les industries créatives, du marketing à la conception de jeux.

Concepts clés et distinctions

La compréhension des modèles multimodaux implique une familiarité avec les concepts connexes :

  • Apprentissage multi-modal : Il s'agit du sous-domaine de l'apprentissage automatique (ML) axé sur le développement des algorithmes et des techniques utilisés pour entraîner des modèles multi-modaux. Il aborde des défis tels que l'alignement des données et les stratégies de fusion, souvent abordés dans des articles universitaires. En bref, l'apprentissage multi-modal est le processus, tandis que le modèle multi-modal est le résultat.
  • Modèles de fondation (Foundation Models) : De nombreux modèles de fondation modernes, tels que GPT-4, sont intrinsèquement multimodaux, capables de traiter à la fois du texte et des images. Ces grands modèles servent de base qui peut être affinée pour des tâches spécifiques.
  • Grands modèles de langage (LLM): Bien que liés, les LLM se concentrent traditionnellement sur le traitement du texte. Les modèles multimodaux sont plus larges, explicitement conçus pour gérer et intégrer des informations provenant de différents types de données au-delà du simple langage. La frontière s'estompe cependant avec l'essor des Modèles de langage de vision (VLM).
  • Modèles de vision spécialisés : Les modèles multimodaux diffèrent des modèles de vision par ordinateur (VC) spécialisés comme Ultralytics YOLO. Alors qu'un modèle multimodal comme GPT-4 pourrait décrire une image (« Il y a un chat assis sur un tapis »), un modèle YOLO excelle dans la détection d'objets ou la segmentation d'instance, localisant précisément le chat avec une boîte englobante ou un masque de pixels. Ces modèles peuvent être complémentaires ; YOLO identifie se trouvent les objets, tandis qu'un modèle multimodal pourrait interpréter la scène ou répondre à des questions à ce sujet. Consultez les comparaisons entre différents modèles YOLO.

Le développement et le déploiement de ces modèles impliquent souvent des plateformes comme Ultralytics HUB, qui peuvent aider à gérer les ensembles de données et les flux de travail d'entraînement des modèles. La capacité à relier différents types de données fait des modèles multimodaux un pas vers une IA plus complète, contribuant potentiellement à une future Intelligence Artificielle Générale (IAG).

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers