Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

IA Multimodale

Découvrez l'IA multimodale et comment elle intègre le texte et la vision pour une compréhension contextuelle. Apprenez dès aujourd'hui à utiliser Ultralytics et les modèles à vocabulaire ouvert.

L'IA multimodale désigne une catégorie sophistiquée de systèmes d'intelligence artificielle (IA) conçus pour traiter, interpréter et synthétiser simultanément des informations provenant de plusieurs types de données différents, ou « modalités ». Contrairement aux systèmes unimodaux traditionnels spécialisés dans une seule source d'entrée , tels que le le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (CV) pour les images, l'IA multimodale imite la perception humaine en intégrant divers flux de données. Cette intégration peut inclure la combinaison de données visuelles (images, vidéo) avec des données linguistiques (texte, audio parlé) et des informations sensorielles (LiDAR, radar, thermique). En exploitant ces entrées combinées, ces modèles parviennent à une compréhension plus approfondie et plus contextuelle des scénarios complexes du monde réel, se rapprochant ainsi des capacités étendues de l' intelligence artificielle générale (AGI).

Comment fonctionnent les systèmes multimodaux

La principale force de l'IA multimodale réside dans sa capacité à cartographier différents types de données dans un espace mathématique commun où elles peuvent être comparées et combinées. Ce processus comprend généralement trois étapes clés : l'encodage, l'alignement et la fusion.

  1. Extraction de caractéristiques: Des réseaux neuronaux spécialisés traitent chaque modalité indépendamment afin d'identifier les modèles clés. Par exemple, un réseau neuronal convolutif (CNN) peut extraire des caractéristiques visuelles d'une photographie, tandis qu'un Transformer traite la légende qui l'accompagne.
  2. Alignement et intégrations: les caractéristiques extraites sont converties en vecteurs numériques à haute dimension. Le modèle apprend à aligner ces vecteurs de manière à ce que les concepts sémantiquement similaires (par exemple, l'image d'un chat et le mot « chat ») soient situés à proximité les uns des autres dans l'espace vectoriel. Cela est souvent réalisé grâce à des techniques telles que l' apprentissage contrastif, une méthode célèbre utilisée dans des modèles tels que CLIP d'OpenAI.
  3. Fusion des données : le système fusionne les données alignées à l'aide de techniques de fusion avancées. Les architectures modernes utilisent des mécanismes d'attention pour pondérer dynamiquement l' importance d'une modalité par rapport à une autre en fonction du contexte, ce qui permet au modèle de se concentrer sur le texte lorsque l' image est ambiguë, ou vice versa.

Applications concrètes

L'IA multimodale a débloqué des capacités qui étaient auparavant impossibles avec les systèmes à modalité unique, stimulant ainsi l' innovation dans divers secteurs.

  • Réponse à des questions visuelles (VQA): Dans cette application, un utilisateur peut présenter une image à une IA et poser des questions en langage naturel à son sujet. Par exemple, un utilisateur malvoyant peut télécharger une photo d'un garde-manger et demander : « Est-ce qu'il me reste des pâtes ? ». Le modèle traite le contenu visuel et la requête textuelle pour fournir une réponse spécifique.
  • Véhicules autonomes: Les voitures autonomes s'appuient fortement sur des entrées multimodales, combinant les données provenant de caméras, de nuages de points LiDAR et de radars pour naviguer en toute sécurité. Cette redondance garantit que si un capteur tombe en panne (par exemple, une caméra aveuglée par les reflets du soleil), les autres peuvent maintenir les normes de sécurité définies par la Society of Automotive Engineers (SAE).
  • Diagnostic médical: Des systèmes d'IA médicale avancés analysent des images médicales (telles que des IRM ou des radiographies) ainsi que les antécédents médicaux non structurés et les données génétiques des patients. Cette vision globale aide les médecins à établir des diagnostics plus précis, un sujet fréquemment abordé dans Nature Digital Medicine.
  • IA générative: les outils qui créent des images à partir de suggestions textuelles, tels que Stable Diffusion, reposent entièrement sur la capacité du modèle à comprendre la relation entre les descriptions linguistiques et les textures visuelles.

Détection à vocabulaire ouvert avec Ultralytics

Alors que les détecteurs d'objets standard s'appuient sur des listes de catégories prédéfinies, les approches multimodales telles que YOLO permettent aux utilisateurs de detect à l'aide de commandes textuelles à vocabulaire ouvert. Cela comble le fossé entre les commandes linguistiques et la reconnaissance visuelle au sein de Ultralytics .

L'exemple suivant montre comment utiliser la fonction ultralytics pour effectuer la détection du vocabulaire ouvert, où le modèle détecte les objets sur la base d'entrées de texte personnalisées. où le modèle détecte des objets basés sur des entrées de texte personnalisées :

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Distinguer les termes apparentés

Pour s'y retrouver dans le paysage actuel de l'apprentissage automatique, il est utile de distinguer l'« IA multimodale » des concepts connexes :

  • Apprentissage multimodal: ce terme fait référence à la discipline académique et à la méthodologie de formation des algorithmes sur des types de données mixtes. L'« IA multimodale » désigne généralement l'application pratique ou le système qui en résulte.
  • Modèles linguistiques de grande taille (LLM): Les LLM traditionnels sont unimodaux et formés exclusivement à partir de données textuelles. Cependant, le secteur s'oriente vers les « modèles multimodaux de grande taille » (LMM) capables de traiter nativement les images et le texte, une tendance soutenue par des cadres tels que PyTorch et TensorFlow.
  • Modèles de vision spécialisés : les modèles tels que le modèle de pointe Ultralytics sont des experts hautement spécialisés dans les tâches visuelles. Alors qu'un modèle multimodal général peut décrire une scène de manière globale, les modèles spécialisés excellent dans la détection rapide et précise d'objets et le traitement en temps réel sur du matériel de pointe.

Perspectives d'avenir

La trajectoire de l'IA multimodale s'oriente vers des systèmes dotés de capacités de raisonnement accrues. En réussissant à ancrer le langage dans la réalité visuelle et physique, ces modèles dépassent la corrélation statistique pour tendre vers une véritable compréhension. Les recherches menées par des institutions telles que Google et le Stanford Center for Research on Foundation Models continuent de repousser les limites de la perception des environnements complexes par les machines.

Chez Ultralytics, nous intégrons ces avancées dans Ultralytics , permettant aux utilisateurs de gérer des données, de former des modèles et de déployer des solutions qui exploitent toute la gamme des modalités disponibles, en combinant la vitesse de YOLO26 avec la polyvalence des entrées multimodales.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant