Découvrez comment les modèles d'IA multimodaux intègrent du texte, des images et bien plus encore pour créer des systèmes robustes et polyvalents pour des applications concrètes.
Un modèle multimodal est un système d'intelligence système avancé d'intelligence artificielle (IA) capable de traiter, d'interpréter et d'intégrer simultanément des informations provenant de différents types de données, ou "modalités". ou "modalités", simultanément. Contrairement aux systèmes unimodaux traditionnels qui se spécialisent dans un seul domaine, comme le le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (VA) pour les images, les modèles multimodaux sont capables d'analyser des informations provenant de différents types de données. pour les images, les modèles multimodaux peuvent analyser à la fois le texte, les images, l'audio, la vidéo et les données des capteurs. Cette convergence permet au modèle Cette convergence permet au modèle de développer une compréhension plus complète et plus humaine du monde, car il peut établir des corrélations entre les indices visuels et les descriptions linguistiques. entre les indices visuels et les descriptions linguistiques. Cette capacité est fondamentale pour le développement des futurs systèmes d intelligence artificielle générale (AGI) et est actuellement le moteur de l'innovation dans des domaines allant de la robotique à la création automatisée de contenu.
L'efficacité des modèles multimodaux repose sur leur capacité à mettre en correspondance différents types de données dans un espace sémantique commun. sémantique. Ce processus commence généralement par la génération de représentations numériquesdes données qui capturent leur qui capturent leur signification essentielle. En s'entraînant sur des ensembles massifs de données d'exemples appariés, tels que des images avec des légendes, le modèle apprend à aligner l'encastrement des données sur la base d'une représentation numérique. modèle apprend à aligner l'intégration de l'image d'un "chien" avec l'intégration du texte pour le mot "chien". "chien".
Des innovations architecturales majeures rendent cette intégration possible :
Les modèles multimodaux ont débloqué de nouvelles capacités qui étaient auparavant impossibles avec des systèmes à modalité unique.
L'exemple suivant montre comment utiliser la fonction ultralytics pour effectuer la détection du vocabulaire ouvert, où le modèle détecte les objets sur la base d'entrées de texte personnalisées.
où le modèle détecte des objets basés sur des entrées de texte personnalisées :
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Il est important de différencier le "modèle multimodal" des concepts apparentés dans le glossaire de l'IA :
Le domaine progresse rapidement vers des modèles capables de traiter des flux continus d'audio, de vidéo et de texte en temps réel. en temps réel. Les recherches menées par des organisations telles que Google DeepMind continuent de repousser les limites de ce que ces systèmes peuvent percevoir. les limites de ce que ces systèmes peuvent percevoir. Chez Ultralytics, alors que notre produit phare, le YOLO11 établissent la norme en matière de vitesse et de précision dans la détection d'objets, nous innovons également avec des architectures telles que YOLO26, qui améliorent encore l'efficacité l'efficacité des applications en périphérie et dans le nuage. À l'avenir, la plateforme Ultralytics Platform offrira un environnement unifié pour gérer les données, la formation et le déploiement de ces flux de travail d'IA de plus en plus complexes.