Découvrez l'IA multimodale et comment elle intègre le texte et la vision pour une compréhension contextuelle. Apprenez dès aujourd'hui à utiliser Ultralytics et les modèles à vocabulaire ouvert.
L'IA multimodale désigne une catégorie sophistiquée de systèmes d'intelligence artificielle (IA) conçus pour traiter, interpréter et synthétiser simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Contrairement aux systèmes unimodaux traditionnels spécialisés dans une seule source d'entrée , tels que le le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images, l'IA multimodale imite la perception humaine en intégrant divers flux de données. Cette intégration peut inclure la combinaison de données visuelles (images, vidéo) avec des données linguistiques (texte, audio parlé) et des informations sensorielles (LiDAR, radar, thermique). En exploitant ces entrées combinées, ces modèles parviennent à une compréhension plus approfondie et plus contextuelle des scénarios complexes du monde réel, se rapprochant ainsi des capacités étendues de l' intelligence artificielle générale (AGI).
La principale force de l'IA multimodale réside dans sa capacité à cartographier différents types de données dans un espace mathématique commun où elles peuvent être comparées et combinées. Ce processus comprend généralement trois étapes clés : l'encodage, l'alignement et la fusion.
L'IA multimodale a débloqué des capacités qui étaient auparavant impossibles avec les systèmes à modalité unique, stimulant ainsi l' innovation dans divers secteurs.
Alors que les détecteurs d'objets standard s'appuient sur des listes de catégories prédéfinies, les approches multimodales telles que YOLO permettent aux utilisateurs de detect à l'aide de commandes textuelles à vocabulaire ouvert. Cela comble le fossé entre les commandes linguistiques et la reconnaissance visuelle au sein de Ultralytics .
L'exemple suivant montre comment utiliser la fonction ultralytics pour effectuer la détection du vocabulaire ouvert, où le modèle détecte les objets sur la base d'entrées de texte personnalisées.
où le modèle détecte des objets basés sur des entrées de texte personnalisées :
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Pour s'y retrouver dans le paysage actuel de l'apprentissage automatique, il est utile de distinguer l'« IA multimodale » des concepts connexes :
La trajectoire de l'IA multimodale s'oriente vers des systèmes dotés de capacités de raisonnement accrues. En réussissant à ancrer le langage dans la réalité visuelle et physique, ces modèles dépassent la corrélation statistique pour tendre vers une véritable compréhension. Les recherches menées par des institutions telles que Google et le Stanford Center for Research on Foundation Models continuent de repousser les limites de la perception des environnements complexes par les machines.
Chez Ultralytics, nous intégrons ces avancées dans Ultralytics , permettant aux utilisateurs de gérer des données, de former des modèles et de déployer des solutions qui exploitent toute la gamme des modalités disponibles, en combinant la vitesse de YOLO26 avec la polyvalence des entrées multimodales.
Commencez votre parcours avec l'avenir de l'apprentissage automatique