Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèle multimodal

Découvrez comment les modèles multimodaux intègrent du texte, des images et du son. Découvrez des architectures telles que Ultralytics et déployez l'IA visuelle sur la Ultralytics .

Un modèle multimodal est un type avancé de système d'intelligence artificielle (IA) capable de traiter, d'interpréter et d'intégrer simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Alors que les systèmes unimodaux traditionnels se spécialisent dans un seul domaine, tel que le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images, les modèles multimodaux visent à imiter la perception humaine en synthétisant des indices visuels, auditifs et linguistiques . Cette convergence permet au modèle de développer une compréhension globale du monde, lui permettant d'établir des corrélations complexes entre une scène visuelle et une description orale. Ces capacités sont considérées comme des étapes fondamentales vers la réalisation de l' intelligence artificielle générale (AGI).

Mécanismes fondamentaux et architecture

L'efficacité d'un modèle multimodal repose sur sa capacité à mapper divers types de données dans un espace sémantique partagé. Ce processus commence généralement par la création d' intégrations, qui sont des représentations numériques qui capturent la signification essentielle des données d'entrée. En s'entraînant sur des ensembles de données massifs d'exemples appariés, tels que des vidéos avec sous-titres, le modèle apprend à aligner la représentation vectorielle d'une image de « chat » avec l'intégration de texte pour le mot « chat ».

Plusieurs concepts architecturaux clés rendent cette intégration possible :

  • Architecture du transformateur: De nombreux systèmes multimodaux utilisent des transformateurs, qui emploient des mécanismes d'attention pour évaluer de manière dynamique l' importance des différentes parties d'entrée. Cela permet à un modèle de se concentrer sur des régions spécifiques de l'image qui correspondent à des mots pertinents dans une invite de texte, un concept détaillé dans l'article de recherche fondateur « Attention Is All You Need ».
  • Fusion de données : Il s'agit de la stratégie consistant à combiner des informations provenant de différentes sources. La fusion des capteurs peut se faire tôt en fusionnant les données brutes ou tardivement en combinant les décisions de sous-modèles distincts. Les frameworks modernes tels que PyTorch offrent la flexibilité nécessaire pour construire ces pipelines complexes.
  • Apprentissage contrastif : les techniques utilisées par des modèles tels que CLIP d'OpenAI entraînent le système à minimiser la distance entre les paires texte-image correspondantes dans l'espace vectoriel tout en maximisant la distance entre les paires non correspondantes.

Applications concrètes

Les modèles multimodaux ont débloqué des capacités qui étaient auparavant impossibles à atteindre pour les systèmes à modalité unique.

  • Réponse visuelle à des questions (VQA): Ces systèmes permettent aux utilisateurs de poser des questions en langage naturel à propos d'une image. Par exemple, un utilisateur malvoyant peut télécharger une photo d'un garde-manger et demander : « Y a-t-il une boîte de soupe sur l'étagère du haut ? » Le modèle utilise la détection d'objets pour identifier les articles et le NLP pour comprendre la requête, fournissant ainsi une réponse utile.
  • Véhicules autonomes: Les voitures autonomes fonctionnent comme des agents multimodaux en temps réel. Elles combinent les flux visuels provenant des caméras, les informations de profondeur fournies par le LiDAR et les données de vitesse provenant du radar. Cette redondance garantit que si un capteur est obstrué par les conditions météorologiques, les autres peuvent maintenir la sécurité routière.
  • Détection à vocabulaire ouvert : des modèles tels que Ultralytics YOLO permettent aux utilisateurs de detect à l'aide de commandes textuelles arbitraires plutôt qu'à partir d'une liste fixe de classes. Cela comble le fossé entre les commandes linguistiques et la reconnaissance visuelle.

Exemple : détection à vocabulaire ouvert

L'exemple suivant montre comment utiliser la fonction ultralytics bibliothèque pour effectuer une détection à vocabulaire ouvert, où le modèle interprète les invites textuelles afin d'identifier les objets dans une image :

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Distinctions par rapport aux termes apparentés

Il est utile de différencier le « modèle multimodal » des concepts connexes dans le glossaire de l'IA :

  • Apprentissage multimodal: ce terme désigne le processus et les techniques d'apprentissage automatique (ML) utilisés pour former ces systèmes. Le modèle multimodal est le produit ou le logiciel résultant de ce processus d'apprentissage.
  • Modèles linguistiques de grande taille (LLM): Les LLM traditionnels traitent uniquement du texte. Si beaucoup évoluent vers des modèles vision-langage (VLM), un LLM standard est unimodal.
  • Modèles de base: il s'agit d'une catégorie plus large qui décrit les modèles à grande échelle adaptables à de nombreuses tâches en aval. Si un modèle multimodal est souvent un modèle de base, tous les modèles de base ne gèrent pas plusieurs modalités.

L'avenir de l'IA multimodale

Le domaine progresse rapidement vers des systèmes capables de traiter en temps réel des flux continus d'audio, de vidéo et de texte . Les recherches menées par des organisations telles que Google continuent de repousser les limites de la perception artificielle. Chez Ultralytics, nous soutenons cet écosystème avec des infrastructures de vision haute performance telles que YOLO26. Lancé en 2026, YOLO26 offre une vitesse et une précision supérieures pour des tâches telles que la segmentation d'instances, servant ainsi de composant visuel efficace dans des pipelines multimodaux plus importants. Les développeurs peuvent gérer les données, la formation et le déploiement de ces flux de travail complexes à l'aide de la Ultralytics unifiée Ultralytics .

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant