Découvre YOLO26 : l'IA de vision de nouvelle génération.
Ultralytics
Retour au glossaire Ultralytics

Multi-Modal Model

Explore comment les modèles multimodaux intègrent le texte, les images et l'audio. Apprends-en sur les architectures comme Ultralytics YOLO26 et déploie l'IA de vision sur la plateforme Ultralytics.

Un modèle multi-modal est un type avancé de système d'intelligence artificielle (IA) capable de traiter, d'interpréter et d'intégrer simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Alors que les systèmes unimodaux traditionnels se spécialisent dans un seul domaine — comme le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images —, les modèles multi-modaux visent à imiter la perception humaine en synthétisant ensemble des signaux visuels, auditifs et linguistiques. Cette convergence permet au modèle de développer une compréhension globale du monde, lui permettant d'établir des corrélations complexes entre une scène visuelle et une description orale. Ces capacités sont considérées comme des étapes fondamentales vers l'atteinte de l'intelligence artificielle générale (AGI).

Link to this sectionMécanismes fondamentaux et architecture#

L'efficacité d'un modèle multi-modal repose sur sa capacité à mapper divers types de données dans un espace sémantique partagé. Ce processus commence généralement par la création de plongements (embeddings), qui sont des représentations numériques capturant la signification essentielle des données d'entrée. En s'entraînant sur des ensembles de données massifs composés d'exemples appariés, tels que des vidéos avec sous-titres, le modèle apprend à aligner la représentation vectorielle d'une image de « chat » avec le plongement textuel du mot « chat ».

Plusieurs concepts architecturaux clés rendent cette intégration possible :

  • Architecture Transformer : De nombreux systèmes multi-modaux utilisent des transformers, qui emploient des mécanismes d'attention pour pondérer dynamiquement l'importance de différentes parties de l'entrée. Cela permet à un modèle de se concentrer sur des régions d'image spécifiques qui correspondent à des mots pertinents dans une requête textuelle, un concept détaillé dans l'article de recherche séminal "Attention Is All You Need".
  • Fusion de données : Cela fait référence à la stratégie consistant à combiner des informations provenant de différentes sources. La fusion de capteurs peut se produire tôt en fusionnant des données brutes ou tard en combinant les décisions de sous-modèles distincts. Des frameworks modernes comme PyTorch offrent la flexibilité nécessaire pour construire ces pipelines complexes.
  • Apprentissage contrastif : Les techniques utilisées par des modèles tels que le CLIP d'OpenAI entraînent le système à minimiser la distance entre des paires texte-image correspondantes dans l'espace vectoriel tout en maximisant la distance entre les paires non correspondantes.

Link to this sectionApplications concrètes#

Les modèles multi-modaux ont ouvert des capacités qu'il était auparavant impossible d'atteindre avec des systèmes à modalité unique.

  • Réponse aux questions visuelles (VQA) : Ces systèmes permettent aux utilisateurs de poser des questions en langage naturel sur une image. Par exemple, un utilisateur malvoyant pourrait télécharger une photo d'un garde-manger et demander : « Y a-t-il une boîte de soupe sur l'étagère du haut ? » Le modèle utilise la détection d'objets pour identifier les éléments et le NLP pour comprendre la requête, fournissant ainsi une réponse utile.
  • Véhicules autonomes : Les voitures autonomes fonctionnent comme des agents multi-modaux en temps réel. Elles combinent des flux visuels provenant de caméras, des informations de profondeur provenant du LiDAR et des données de vitesse provenant du radar. Cette redondance garantit que si un capteur est obstrué par les conditions météorologiques, d'autres peuvent maintenir la sécurité routière.
  • Détection à vocabulaire ouvert : Des modèles comme Ultralytics YOLO-World permettent aux utilisateurs de détecter des objets en utilisant des requêtes textuelles arbitraires plutôt qu'une liste fixe de classes. Cela comble le fossé entre les commandes linguistiques et la reconnaissance visuelle.

Link to this sectionExemple : Détection à vocabulaire ouvert#

L'exemple suivant démontre comment utiliser la bibliothèque ultralytics pour effectuer une détection à vocabulaire ouvert, où le modèle interprète des requêtes textuelles pour identifier des objets dans une image :

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionDistinctions avec des termes apparentés#

Il est utile de différencier le « Modèle multi-modal » de concepts apparentés dans le glossaire de l'IA :

  • Apprentissage multi-modal : Cela fait référence au processus et aux techniques d'apprentissage automatique (ML) utilisés pour entraîner ces systèmes. Le modèle multi-modal est l'artefact ou le produit logiciel résultant de ce processus d'apprentissage.
  • Grands modèles de langage (LLM) : Les LLM traditionnels traitent uniquement du texte. Bien que beaucoup évoluent vers des modèles vision-langage (VLM), un LLM standard est unimodal.
  • Modèles de fondation : Il s'agit d'une catégorie plus large décrivant des modèles à grande échelle adaptables à de nombreuses tâches en aval. Bien qu'un modèle multi-modal soit souvent un modèle de fondation, tous les modèles de fondation ne gèrent pas plusieurs modalités.

Link to this sectionL'avenir de l'IA multi-modale#

Le domaine progresse rapidement vers des systèmes capables de traiter des flux continus d'audio, de vidéo et de texte en temps réel. La recherche menée par des organisations comme Google DeepMind continue de repousser les limites de la perception machine. Chez Ultralytics, nous soutenons cet écosystème avec des backbones de vision haute performance comme YOLO26. Sorti en 2026, YOLO26 offre une vitesse et une précision supérieures pour des tâches telles que la segmentation d'instance, servant de composant visuel efficace dans des pipelines multi-modaux plus vastes. Les développeurs peuvent gérer les données, l'entraînement et le déploiement de ces flux de travail complexes en utilisant la plateforme Ultralytics unifiée.

Explore solutions

Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus
Real-time AI that works with your team

IA dans la robotique

Équipe tes machines plus intelligentes avec les modèles Ultralytics YOLO. La vision par IA dans la robotique propulse la navigation autonome, la perception, le suivi d'objets et le contrôle en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans la logistique

Simplifie la logistique avec les modèles Ultralytics YOLO. La vision par IA permet l'inspection des colis, le tri, le suivi des véhicules et la surveillance de la sécurité des entrepôts en temps réel.

En savoir plus
Real-time AI that works with your team

IA dans le commerce de détail

Réinvente le commerce de détail avec les modèles Ultralytics YOLO. La vision par IA alimente le suivi des stocks, la surveillance des étagères, la gestion des files d'attente et des informations plus intelligentes sur les clients.

En savoir plus
Real-time AI that works with your team

IA dans la santé

Construis des solutions de santé avec les modèles Ultralytics YOLO. L'IA de vision dans la santé permet une imagerie médicale plus rapide, des diagnostics plus intelligents et une surveillance des patients.

En savoir plus
Real-time AI that works with your team

IA dans la fabrication

Optimise la fabrication avec les modèles Ultralytics YOLO. La vision par IA favorise le contrôle qualité, la détection des défauts, la conformité aux EPI et l'automatisation des chaînes de montage.

En savoir plus
Real-time AI that works with your operation

IA dans l'automobile

Applique la vision par ordinateur dans l'automobile avec les modèles Ultralytics YOLO. L'IA de vision améliore la sécurité routière, l'assistance à la conduite et l'automatisation des véhicules pour des routes plus intelligentes.

En savoir plus
Real-time AI tailored to your operation

IA en agriculture

Intègre l'IA de vision à l'agriculture intelligente avec les modèles Ultralytics YOLO. Optimise la surveillance des cultures, le suivi du bétail et l'agriculture de précision pour des rendements plus élevés et plus intelligents.

En savoir plus

Construisons ensemble le futur de l'IA !

Commence ton aventure avec le futur de l'apprentissage automatique