Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

IA Multimodale

Découvrez l'IA Multimodale, le domaine où les systèmes traitent et comprennent diverses données telles que le texte, les images et l'audio. Découvrez comment cela fonctionne et explorez les principales applications.

L'IA multimodale désigne une catégorie sophistiquée de systèmes d'intelligence artificielle (IA) conçus pour traiter, interpréter et synthétiser simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Contrairement aux systèmes unimodaux traditionnels spécialisés dans une seule source d'entrée , tels que le le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images — l'IA multimodale imite la perception humaine en intégrant divers flux de données. Cela peut inclure la combinaison de données visuelles (images, vidéos) avec des données linguistiques (texte, audio parlé) et des informations sensorielles (LiDAR, radar, thermique). En exploitant ces entrées combinées, ces modèles parviennent à une compréhension plus approfondie et plus contextuelle des scénarios complexes du monde réel, se rapprochant ainsi des capacités de l' intelligence artificielle générale (AGI).

Mécanismes fondamentaux des systèmes multimodaux

La puissance de l'IA multimodale réside dans sa capacité à cartographier différents types de données dans un espace mathématique partagé. Ce processus comprend généralement trois étapes clés : l'encodage, la fusion et le décodage.

  1. Extraction de caractéristiques : des réseaux neuronaux (NN) spécialisés codent chaque modalité. Par exemple, un réseau neuronal convolutif (CNN) peut traiter une image pour en extraire des caractéristiques visuelles, tandis qu'un Transformer traite le texte qui l'accompagne.
  2. Intégrations et alignement : les caractéristiques extraites sont converties en intégrations, c'est-à-dire en vecteurs numériques à haute dimension. Le modèle aligne ces vecteurs de manière à ce que les concepts sémantiquement similaires (par exemple, une photo d'un chat et le mot « chat ») soient situés à proximité les uns des autres dans l'espace vectoriel. Ceci est souvent réalisé grâce à des techniques telles que l' apprentissage contrastif, célèbre pour son utilisation dans des modèles tels que CLIP d'OpenAI.
  3. Fusion : le système fusionne les données alignées à l'aide de techniques de fusion. Des mécanismes d'attention avancés permettent au modèle d'évaluer de manière dynamique l'importance d'une modalité par rapport à une autre en fonction du contexte, un concept détaillé dans l'article fondateur « Attention Is All You Need ».

Applications concrètes

L'IA multimodale révolutionne les industries en résolvant des problèmes qui nécessitent une vision holistique de l'environnement.

  • Réponse visuelle à des questions (VQA): Cette application permet aux utilisateurs d'interroger des images à l'aide du langage naturel. Par exemple, un utilisateur malvoyant pourrait présenter une photo d'un garde-manger et demander : « Y a-t-il une boîte de soupe sur l'étagère du haut ? » Le système utilise la détection d'objets pour identifier les articles et le NLP pour comprendre la question spécifique, fournissant une réponse audio.
  • Véhicules autonomes: Les voitures autonomes s'appuient sur la fusion de capteurs pour naviguer en toute sécurité. Elles combinent les flux visuels provenant des caméras avec les données de profondeur fournies par le LiDAR et les données de vitesse fournies par le radar. Cette approche multimodale garantit que si un capteur est compromis (par exemple, une caméra aveuglée par les reflets du soleil), le système peut toujours detect et maintenir la sécurité routière.
  • L'IA dans le domaine de la santé: les outils de diagnostic modernes intègrent l'analyse d'images médicales (radiographies, IRM) à des données textuelles non structurées telles que les notes cliniques et les antécédents des patients. En analysant ces modalités ensemble, les médecins peuvent obtenir des évaluations des risques plus précises et des plans de traitement personnalisés.

Détection à vocabulaire ouvert avec Ultralytics

Un exemple pratique d'IA multimodale est la détection d'objets à vocabulaire ouvert, où un modèle détecte des objets à partir de suggestions textuelles arbitraires plutôt qu'à partir d'une liste de classes pré-entraînée. Le modèle Ultralytics YOLO illustre cette capacité, comblant le fossé entre les commandes linguistiques et la reconnaissance visuelle.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the multimodal detection results
results[0].show()

Différencier les termes clés

Il est utile de distinguer l'« IA multimodale » des concepts connexes afin de mieux comprendre le paysage :

  • Apprentissage multimodal: ce terme désigne la discipline académique et le processus d'entraînement des algorithmes sur des types de données mixtes. L'IA multimodale est l'application pratique ou le résultat de ce processus d'apprentissage.
  • Modèles linguistiques de grande taille (LLM): Les LLM traditionnels sont unimodaux et ne traitent que du texte. Si beaucoup évoluent vers des modèles vision-langage (VLM), un LLM standard ne traite pas intrinsèquement les données visuelles sans adaptateurs supplémentaires.
  • Modèles de vision spécialisés : les modèles tels que le modèle de pointe Ultralytics sont des experts hautement spécialisés dans les tâches visuelles. Alors qu'un modèle multimodal général peut décrire une scène de manière globale, les modèles spécialisés excellent dans la segmentation d'instances précise et à grande vitesse et le traitement en temps réel sur du matériel de pointe.

Orientations futures

Le domaine évolue vers des modèles de base qui sont nativement multimodaux dès le départ, plutôt que d'assembler des réseaux séparés. Les recherches menées par des organisations telles que Google continuent de repousser les limites de la façon dont l'IA perçoit le monde. Chez Ultralytics, la sortie de YOLO26 marque une nouvelle norme en matière d'efficacité dans la composante visuelle de ces pipelines, garantissant que les « yeux » visuels des systèmes multimodaux sont plus rapides et plus précis que jamais.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant