Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage multimodal

Découvrez la puissance de l'apprentissage multimodal dans l'IA ! Découvrez comment les modèles intègrent divers types de données pour une résolution de problèmes plus riche et plus réaliste.

L'apprentissage multimodal est un sous-domaine de l'apprentissage automatique (ML) où les modèles d'IA sont entraînés à traiter et à comprendre les informations provenant de plusieurs types de données, appelées modalités. Tout comme les humains perçoivent le monde en combinant la vue, le son et le langage, l'apprentissage multimodal permet à l'IA de développer une compréhension plus holistique et contextuelle en intégrant des données provenant de sources telles que des images, du texte, de l'audio et des relevés de capteurs. Cette approche va au-delà des systèmes à objectif unique, permettant des interprétations plus riches et des applications plus sophistiquées qui reflètent l'intelligence humaine. L'objectif ultime est de construire des modèles capables de voir, de lire et d'écouter pour en tirer des informations complètes.

Fonctionnement de l’apprentissage multimodal

Les systèmes d'apprentissage multimodal sont conçus pour relever trois défis principaux : la représentation, l'alignement et la fusion. Tout d'abord, le modèle doit apprendre une représentation significative pour chaque modalité, en convertissant souvent des types de données divers comme les pixels et les mots en vecteurs numériques appelés embeddings. Deuxièmement, il doit aligner ces représentations, en reliant les concepts connexes entre les modalités, par exemple, en reliant le texte « un chien attrapant un frisbee » aux éléments visuels correspondants dans une image. Enfin, il fusionne ces représentations alignées pour faire une prédiction unifiée ou générer un nouveau contenu. Cette fusion peut se produire à différentes étapes, et le développement d'architectures comme le Transformer et son mécanisme d'attention a été essentiel dans la création de stratégies de fusion efficaces.

Applications concrètes

L'apprentissage multimodal est le moteur de nombreuses capacités d'IA de pointe. Voici quelques exemples importants :

  1. Réponse visuelle aux questions (VQA) : Dans VQA, un modèle d'IA reçoit une image et une question en langage naturel à son sujet (par exemple, « Que fait la personne en chemise rouge ? »). Le modèle doit traiter simultanément les informations visuelles de l'image et le sens sémantique du texte pour fournir une réponse précise. Cette technologie est utilisée pour créer des outils d'assistance pour les personnes malvoyantes et pour l'analyse avancée de contenu. Vous pouvez explorer un ensemble de données VQA populaire pour voir d'autres exemples.
  2. Génération de texte en image : Les modèles génératifs comme DALL-E 3 d'OpenAI et Stable Diffusion sont d'excellents exemples d'apprentissage multimodal. Ils prennent une description textuelle (une invite) et génèrent une nouvelle image correspondante. Cela nécessite une compréhension approfondie du langage et la capacité de traduire des concepts abstraits en détails visuels cohérents, une tâche qui combine le NLP et la vision générative.

Principales distinctions

Il est utile de distinguer l'apprentissage multimodal des termes connexes :

  • Modèles multi-modaux : L'apprentissage multi-modal est le processus ou le domaine d'étude concerné par l'entraînement de l'IA à l'aide de plusieurs types de données. Les modèles multi-modaux sont les systèmes d'IA résultants ou les architectures conçues et entraînées à l'aide de ces techniques.
  • Vision par ordinateur (CV) : La CV se concentre exclusivement sur le traitement et la compréhension des données visuelles. Alors qu'un modèle de CV spécialisé comme Ultralytics YOLO11 excelle dans des tâches telles que la détection d'objets, l'apprentissage multimodal va plus loin en intégrant ces données visuelles à d'autres modalités.
  • Traitement du Langage Naturel (TAL): Le TAL traite de la compréhension et de la génération du langage humain. L'apprentissage multi-modal intègre des données linguistiques avec d'autres modalités comme des images ou des lectures de capteurs, comme on le voit dans les Modèles Vision-Langage.
  • Modèles de fondation: Ce sont des modèles à grande échelle pré-entraînés sur de vastes quantités de données. De nombreux modèles de fondation modernes, comme GPT-4, sont intrinsèquement multi-modaux, mais les concepts sont distincts. L'apprentissage multi-modal est une méthodologie souvent utilisée pour construire ces modèles puissants, qui sont étudiés par des institutions comme le CRFM de Stanford.

Défis et orientations futures

L'apprentissage multimodal présente des défis uniques, notamment l'alignement efficace des données provenant de différentes sources, le développement de stratégies de fusion optimales et la gestion des données manquantes ou bruitées. Relever ces défis de l'apprentissage multimodal reste un domaine de recherche actif. Le domaine évolue rapidement, repoussant les limites vers des systèmes d'IA qui perçoivent et raisonnent sur le monde comme le font les humains, contribuant potentiellement au développement de l'intelligence artificielle générale (IAG). Bien que des plateformes comme Ultralytics HUB facilitent actuellement les flux de travail principalement axés sur les tâches de vision par ordinateur, le paysage plus large de l'IA indique une intégration croissante des capacités multimodales. Gardez un œil sur le blog d'Ultralytics pour les mises à jour sur les nouvelles capacités de modèle développées avec des frameworks comme PyTorch et TensorFlow.

Rejoignez la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant
Lien copié dans le presse-papiers