Découvrez comment les modèles multimodaux intègrent du texte, des images et du son. Découvrez des architectures telles que Ultralytics et déployez l'IA visuelle sur la Ultralytics .
Un modèle multimodal est un type avancé de système d'intelligence artificielle (IA) capable de traiter, d'interpréter et d'intégrer simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Alors que les systèmes unimodaux traditionnels se spécialisent dans un seul domaine, tel que le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images, les modèles multimodaux visent à imiter la perception humaine en synthétisant des indices visuels, auditifs et linguistiques . Cette convergence permet au modèle de développer une compréhension globale du monde, lui permettant d'établir des corrélations complexes entre une scène visuelle et une description orale. Ces capacités sont considérées comme des étapes fondamentales vers la réalisation de l' intelligence artificielle générale (AGI).
L'efficacité d'un modèle multimodal repose sur sa capacité à mapper divers types de données dans un espace sémantique partagé. Ce processus commence généralement par la création d' intégrations, qui sont des représentations numériques qui capturent la signification essentielle des données d'entrée. En s'entraînant sur des ensembles de données massifs d'exemples appariés, tels que des vidéos avec sous-titres, le modèle apprend à aligner la représentation vectorielle d'une image de « chat » avec l'intégration de texte pour le mot « chat ».
Plusieurs concepts architecturaux clés rendent cette intégration possible :
Les modèles multimodaux ont débloqué des capacités qui étaient auparavant impossibles à atteindre pour les systèmes à modalité unique.
L'exemple suivant montre comment utiliser la fonction ultralytics bibliothèque pour effectuer une détection à vocabulaire ouvert,
où le modèle interprète les invites textuelles afin d'identifier les objets dans une image :
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
Il est utile de différencier le « modèle multimodal » des concepts connexes dans le glossaire de l'IA :
Le domaine progresse rapidement vers des systèmes capables de traiter en temps réel des flux continus d'audio, de vidéo et de texte . Les recherches menées par des organisations telles que Google continuent de repousser les limites de la perception artificielle. Chez Ultralytics, nous soutenons cet écosystème avec des infrastructures de vision haute performance telles que YOLO26. Lancé en 2026, YOLO26 offre une vitesse et une précision supérieures pour des tâches telles que la segmentation d'instances, servant ainsi de composant visuel efficace dans des pipelines multimodaux plus importants. Les développeurs peuvent gérer les données, la formation et le déploiement de ces flux de travail complexes à l'aide de la Ultralytics unifiée Ultralytics .