Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage multimodal

Découvrez la puissance de l'apprentissage multimodal dans l'IA ! Découvrez comment les modèles intègrent divers types de données pour une résolution de problèmes plus riche et plus réaliste.

L'apprentissage multimodal est un sous-domaine avancé de l'apprentissage l'apprentissage machine (ML) où les algorithmes sont algorithmes sont formés pour traiter, comprendre et mettre en corrélation des informations provenant de plusieurs types de données distincts, appelés modalités. Alors que les systèmes d'IA traditionnels se concentrent souvent sur un seul type d'entrée - comme le texte pour la traduction linguistique ou les pixels pour la reconnaissance d'images, l'apprentissage multimodalimite la l'apprentissage multimodal imite la cognition humaine en intégrant diverses entrées sensorielles telles que des données visuelles, des sons parlés, des descriptions textuelles et des relevés de capteurs. capteurs. Cette approche holistique permet à l'intelligence artificielle (IA) de développer Cette approche holistique permet à l'intelligence artificielle (IA) de développer une compréhension plus profonde et contextuelle du monde, ce qui conduit à des modèles prédictifs plus robustes et plus polyvalents.

Les mécanismes de l'intégration multimodale

Le principal défi de l'apprentissage multimodal consiste à traduire différents types de données dans un espace mathématique commun où elles peuvent être comparées et combinées. où elles peuvent être comparées et combinées. Ce processus comporte généralement trois étapes principales : l'encodage, l'alignement et la fusion.

  1. Encodage : Des réseaux neuronaux spécialisés traitent chaque modalité de manière indépendante. Par exemple, réseaux neuronaux convolutionnels (CNN) ou les transformateurs de vision (ViT) extraient les caractéristiques des images, tandis que les réseaux neuronaux récurrents (RNN ) ou les Transformers traitent le texte.
  2. Alignement : Le modèle apprend à cartographier ces diverses caractéristiques dans des vecteurs partagés à haute dimension appelés " embeddings". Dans cet espace partagé, le vecteur du mot "chien" et le vecteur d'une image de chien sont rapprochés. Des techniques telles que l 'apprentissage contrastif, popularisées par des articles tels que CLIP de l'OpenAI, sont essentielles ici.
  3. Fusion : Enfin, les informations sont fusionnées pour effectuer une tâche. La fusion peut avoir lieu au début (en combinant les données données brutes), tardivement (en combinant les prédictions finales), ou par le biais de méthodes hybrides intermédiaires utilisant le mécanisme d'attention pour pondérer l'importance de l'information. mécanisme d'attention pour pondérer l'importance de chaque modalité de chaque modalité de manière dynamique.

Applications concrètes

L'apprentissage multimodal est le moteur de bon nombre des percées les plus impressionnantes de l'IA, car il comble le fossé entre les silos de données distincts. silos de données distincts.

  • Réponse aux questions visuelles (VQA) : En Visual Question Answering (VQA), un système système doit analyser une image et répondre à une question en langage naturel, telle que "De quelle couleur est le feu de signalisation ? le feu de circulation ?". Pour ce faire, le modèle doit comprendre la sémantique du texte et localiser dans l'espace les éléments visuels correspondants. éléments visuels correspondants.
  • Navigation autonome : Les voitures auto-conduites s'appuient fortement sur la fusion de capteurs, combinant des données provenant de nuages de points LiDAR, de la caméra et du radar pour naviguer en toute sécurité. Ces données multimodales garantissent que si un capteur tombe en panne (par exemple, une caméra aveuglée par l'éblouissement du soleil), les autres peuvent maintenir la sécurité. caméra aveuglée par l'éblouissement du soleil), les autres peuvent maintenir la sécurité.
  • Diagnostic médical : L'IA dans les soins de santé utilise l'apprentissage multimodal en analysant des images médicales (comme des IRM ou des radiographies) ainsi que des données textuelles non structurées sur les antécédents du patient et des données génétiques. Cette vision globale aide les médecins à établir des diagnostics plus précis, un sujet fréquemment abordé dans les revues Nature Digital Medicine. Nature Digital Medicine.

Détection multimodale d'objets avec Ultralytics

Alors que les détecteurs d'objets standard s'appuient sur des classes prédéfinies, les approches multimodales telles que YOLO permettent aux utilisateurs de detect objets à l'aide d'invites textuelles à vocabulaire ouvert. de détecter des objets à l'aide d'invites textuelles à vocabulaire ouvert. Cela démontre la puissance du lien entre les concepts textuels et les caractéristiques visuelles.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Différencier les termes clés

Pour naviguer dans le paysage de l'IA moderne, il est utile de distinguer l'"apprentissage multimodal" des concepts connexes :

  • Modèles multimodaux: "L'apprentissage multimodal fait référence à la méthodologie et au domaine d'étude. Un "modèle multimodal" (comme GPT-4 ou Gemini) est l'artefact ou le spécifique ou le produit logiciel résultant de ce processus de formation.
  • Vision par ordinateur (VA): CV est est généralement unimodale et se concentre exclusivement sur les données visuelles. Alors qu'un modèle comme Ultralytics YOLO11 est un outil de CV à la pointe de la technologie, il fait partie d'un pipeline multimodal lorsque ses résultats sont combinés avec des données audio ou textuelles.
  • Les grands modèles de langage (LLM): Les LLM traditionnels sont unimodaux, formés uniquement sur du texte. Cependant, l'industrie s'oriente vers les "grands modèles multimodaux" (LMM) qui peuvent traiter nativement les images et le texte. multimodaux" (LMM) qui peuvent traiter nativement les images et le texte, une tendance soutenue par des frameworks tels que PyTorch et TensorFlow.

Perspectives d'avenir

La trajectoire de l'apprentissage multimodal s'oriente vers des systèmes dotés d'une intelligence générale artificielle (AGI). l'intelligence générale artificielle (AGI) (AGI). En réussissant à ancrer le langage dans la réalité visuelle et physique, ces modèles vont au-delà de la corrélation statistique vers un véritable raisonnement. de la corrélation statistique vers un véritable raisonnement. Des recherches menées par des institutions telles que le MIT CSAIL et le Stanford Center for Research on Foundation Models continue de repousser les limites de la perception et de l'interaction des machines avec des systèmes complexes et multisensoriels. les limites de la perception et de l'interaction des machines avec des environnements complexes et multisensoriels.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant