Multimodal AI
Explore l'IA multimodale et comment elle intègre le texte et la vision pour une compréhension contextuelle. Apprends à utiliser Ultralytics YOLO26 et les modèles à vocabulaire ouvert dès aujourd'hui.
L'IA multimodale désigne une classe sophistiquée de systèmes d'intelligence artificielle (IA) conçus pour traiter, interpréter et synthétiser simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Contrairement aux systèmes unimodaux traditionnels qui se spécialisent dans une seule source d'entrée — comme le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images — l'IA multimodale imite la perception humaine en intégrant divers flux de données. Cette intégration peut inclure la combinaison de données visuelles (images, vidéo) avec des données linguistiques (texte, audio parlé) et des informations sensorielles (LiDAR, radar, thermique). En tirant parti de ces entrées combinées, ces modèles obtiennent une compréhension plus profonde et plus contextuelle de scénarios complexes du monde réel, se rapprochant ainsi des capacités étendues de l'intelligence artificielle générale (AGI).
Link to this sectionComment fonctionnent les systèmes multimodaux#
La force fondamentale de l'IA multimodale réside dans sa capacité à mapper différents types de données dans un espace mathématique partagé où ils peuvent être comparés et combinés. Ce processus implique généralement trois étapes clés : l'encodage, l'alignement et la fusion.
-
Extraction de caractéristiques : Des réseaux de neurones spécialisés traitent chaque modalité indépendamment pour identifier des modèles clés. Par exemple, un réseau de neurones convolutif (CNN) pourrait extraire des caractéristiques visuelles d'une photographie, tandis qu'un Transformer traite la légende associée.
-
Alignement et embeddings : Les caractéristiques extraites sont converties en vecteurs numériques de haute dimension. Le modèle apprend à aligner ces vecteurs afin que des concepts sémantiquement similaires (par exemple, l'image d'un chat et le mot « chat ») soient situés proches les uns des autres dans l'espace vectoriel. Cela est souvent réalisé grâce à des techniques comme l'apprentissage contrastif, une méthode célèbre utilisée dans des modèles comme CLIP d'OpenAI.
-
Fusion de données : Le système fusionne les données alignées en utilisant des techniques de fusion avancées. Les architectures modernes utilisent des mécanismes d'attention pour pondérer dynamiquement l'importance d'une modalité par rapport à une autre en fonction du contexte, permettant au modèle de se concentrer sur le texte lorsque l'image est ambiguë, ou vice versa.
Link to this sectionApplications concrètes#
L'IA multimodale a débloqué des capacités auparavant impossibles avec les systèmes à modalité unique, stimulant l'innovation dans diverses industries.
- Réponse aux questions visuelles (VQA) : Dans cette application, un utilisateur peut présenter une image à une IA et poser des questions en langage naturel à son sujet. Par exemple, un utilisateur malvoyant pourrait télécharger une photo d'un garde-manger et demander : « Est-ce qu'il me reste des pâtes ? ». Le modèle traite le contenu visuel et la requête textuelle pour fournir une réponse spécifique.
- Véhicules autonomes : Les voitures autonomes dépendent fortement des entrées multimodales, combinant les données des caméras, des nuages de points LiDAR et du radar pour naviguer en toute sécurité. Cette redondance garantit que si un capteur tombe en panne (par exemple, une caméra aveuglée par l'éblouissement du soleil), les autres peuvent maintenir les normes de sécurité définies par la Society of Automotive Engineers (SAE).
- Diagnostics de santé : Les systèmes d'IA médicale avancés analysent l'analyse d'images médicales (comme les IRM ou les radiographies) parallèlement aux antécédents médicaux textuels non structurés et aux données génétiques. Cette vue complète aide les médecins à établir des diagnostics plus précis, un sujet fréquemment discuté dans Nature Digital Medicine.
- IA générative : Les outils qui créent des images à partir de prompts textuels, tels que Stable Diffusion, reposent entièrement sur la capacité du modèle à comprendre la relation entre les descriptions linguistiques et les textures visuelles.
Link to this sectionDétection à vocabulaire ouvert avec Ultralytics#
Alors que les détecteurs d'objets standard reposent sur des listes prédéfinies de catégories, les approches multimodales comme YOLO-World permettent aux utilisateurs de détecter des objets à l'aide de prompts textuels à vocabulaire ouvert. Cela comble le fossé entre les commandes linguistiques et la reconnaissance visuelle au sein de l'écosystème Ultralytics.
L'exemple suivant démontre comment utiliser la bibliothèque ultralytics pour effectuer une détection à vocabulaire ouvert, où le modèle détecte des objets basés sur des entrées textuelles personnalisées :
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()Link to this sectionDistinguer les termes associés#
Pour naviguer dans le paysage de l'apprentissage automatique moderne, il est utile de distinguer l'« IA multimodale » de concepts apparentés :
- Apprentissage multimodal : Cela fait référence à la discipline académique et à la méthodologie d'entraînement d'algorithmes sur des types de données mixtes. L'« IA multimodale » fait généralement référence à l'application pratique ou au système résultant lui-même.
- Grands modèles de langage (LLM) : Les LLM traditionnels sont unimodaux, entraînés exclusivement sur des données textuelles. Cependant, l'industrie évolue vers des « grands modèles multimodaux » (LMM) capables de traiter nativement des images et du texte, une tendance soutenue par des frameworks comme PyTorch et TensorFlow.
- Modèles de vision spécialisés : Les modèles comme le Ultralytics YOLO26 à la pointe de la technologie sont des experts hautement spécialisés dans les tâches visuelles. Alors qu'un modèle multimodal général pourrait décrire une scène de manière globale, les modèles spécialisés excellent dans la détection d'objets précise et rapide ainsi que dans le traitement en temps réel sur le matériel en périphérie.
Link to this sectionPerspectives d'avenir#
La trajectoire de l'IA multimodale pointe vers des systèmes possédant de meilleures capacités de raisonnement. En ancrant avec succès le langage dans la réalité visuelle et physique, ces modèles dépassent la corrélation statistique pour atteindre une véritable compréhension. Les recherches menées par des institutions comme Google DeepMind et le Stanford Center for Research on Foundation Models continuent de repousser les limites de la façon dont les machines perçoivent des environnements complexes.
Chez Ultralytics, nous intégrons ces avancées dans la plateforme Ultralytics, permettant aux utilisateurs de gérer des données, d'entraîner des modèles et de déployer des solutions qui tirent parti de tout le spectre des modalités disponibles, combinant la vitesse de YOLO26 avec la polyvalence des entrées multimodales.






