Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Apprentissage multimodal

Découvrez l'apprentissage multimodal dans le domaine de l'IA. Apprenez comment il intègre le texte, la vision et l'audio pour créer des modèles robustes tels que Ultralytics et YOLO. Découvrez-en plus dès aujourd'hui !

L'apprentissage multimodal est une approche sophistiquée de l' intelligence artificielle (IA) qui forme des algorithmes à traiter, comprendre et corréler des informations provenant de plusieurs types de données distincts, ou « modalités ». Contrairement aux systèmes traditionnels spécialisés dans un seul type d'entrée, comme le texte pour latraduction ou les pixels pour la reconnaissance d'images, l'apprentissage multimodal imite la cognition humaine en intégrant diverses entrées sensorielles telles que les données visuelles, l'audio parlé, les descriptions textuelles et les lectures de capteurs. Cette approche holistique permet aux modèles d'apprentissage automatique (ML) de développer une compréhension plus approfondie et contextuelle du monde, ce qui conduit à des prédictions plus robustes et polyvalentes.

Fonctionnement de l’apprentissage multimodal

Le principal défi de l'apprentissage multimodal consiste à traduire différents types de données dans un espace mathématique commun où ils peuvent être comparés et combinés. Ce processus comprend généralement trois étapes principales : l'encodage, l'alignement et la fusion.

  1. Extraction de caractéristiques: Des réseaux neuronaux spécialisés traitent chaque modalité indépendamment. Par exemple, les réseaux neuronaux convolutifs (CNN) ou les transformateurs de vision (ViT) peuvent extraire des caractéristiques à partir d'images, tandis que les réseaux neuronaux récurrents (RNN) ou les transformateurs traitent le texte.
  2. Alignement des intégrations: le modèle apprend à mapper ces caractéristiques diverses dans des vecteurs communs à haute dimension. Dans cet espace commun, le vecteur du mot « chat » et le vecteur d'une image de chat sont rapprochés. Des techniques telles que l' apprentissage contrastif, popularisées par des articles tels que CLIP d'OpenAI, sont essentielles ici.
  3. Fusion des données: enfin, les informations sont fusionnées pour effectuer une tâche. La fusion peut avoir lieu tôt (combinaison des données brutes), tard (combinaison des prédictions finales) ou via des méthodes hybrides intermédiaires utilisant le mécanisme d'attention pour pondérer l'importance de chaque modalité de manière dynamique.

Applications concrètes

L'apprentissage multimodal est le moteur de nombreuses avancées impressionnantes en matière d'IA, comblant le fossé entre différents silos de données pour résoudre des problèmes complexes.

  • Réponse à des questions visuelles (VQA): Dans cette application, un système doit analyser une image et répondre à une question en langage naturel à son sujet, telle que « De quelle couleur est le feu de signalisation ? ». Cela nécessite que le modèle comprenne la sémantique du texte et localise spatialement les éléments visuels correspondants à l'aide de la vision par ordinateur.
  • Véhicules autonomes: Les voitures autonomes s'appuient fortement sur la fusion de capteurs, combinant les données provenant des nuages de points LiDAR, des flux vidéo des caméras et des radars pour naviguer en toute sécurité. Cette entrée multimodale garantit que si un capteur tombe en panne (par exemple, une caméra aveuglée par le soleil ), les autres peuvent maintenir la sécurité routière.
  • Diagnostic médical: l'IA dans le domaine de la santé utilise l'apprentissage multimodal en analysant des images médicales (comme les IRM ou les radiographies) ainsi que les antécédents médicaux non structurés et les données génétiques des patients. Cette vision globale aide les médecins à établir des diagnostics plus précis, un sujet fréquemment abordé dans les revues Nature Digital Medicine.
  • IA générative: les outils qui créent des images à partir de suggestions textuelles, tels que Stable Diffusion, reposent entièrement sur la capacité du modèle à comprendre la relation entre les descriptions linguistiques et les textures visuelles.

Détection multimodale d'objets avec Ultralytics

Alors que les détecteurs d'objets standard s'appuient sur des classes prédéfinies, les approches multimodales telles que YOLO permettent aux utilisateurs de detect à l'aide de commandes textuelles à vocabulaire ouvert. Cela démontre la puissance de la mise en relation des concepts textuels avec les caractéristiques visuelles au sein de Ultralytics .

L'extrait Python suivant montre comment utiliser un modèle YOLO pré-entraîné pour detect à partir de saisies de texte personnalisées.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Différencier les termes clés

Pour naviguer dans le paysage de l'IA moderne, il est utile de distinguer l'"apprentissage multimodal" des concepts connexes :

  • Modèle multimodal: Le « apprentissage multimodal » fait référence à la méthodologie et au domaine d'étude. Un « modèle multimodal » (comme GPT-4 ou Gemini Google) est l'artefact ou le produit logiciel spécifique résultant de ce processus d'entraînement.
  • IA unimodale: traditionnelle La vision par ordinateur est généralement unimodale, se concentrant exclusivement sur les données visuelles. Si un modèle tel que Ultralytics est un outil de CV de pointe pour la détection d'objets, il fonctionne généralement uniquement sur des entrées visuelles, à moins de faire partie d'un pipeline multimodal plus large.
  • Les grands modèles de langage (LLM): Les LLM traditionnels sont unimodaux, formés uniquement sur du texte. Cependant, l'industrie s'oriente vers les "grands modèles multimodaux" (LMM) qui peuvent traiter nativement les images et le texte. multimodaux" (LMM) qui peuvent traiter nativement les images et le texte, une tendance soutenue par des frameworks tels que PyTorch et TensorFlow.

Perspectives d'avenir

La trajectoire de l'apprentissage multimodal s'oriente vers des systèmes dotés d'une intelligence générale artificielle (AGI). l'intelligence générale artificielle (AGI) (AGI). En réussissant à ancrer le langage dans la réalité visuelle et physique, ces modèles vont au-delà de la corrélation statistique vers un véritable raisonnement. de la corrélation statistique vers un véritable raisonnement. Des recherches menées par des institutions telles que le MIT CSAIL et le Stanford Center for Research on Foundation Models continue de repousser les limites de la perception et de l'interaction des machines avec des systèmes complexes et multisensoriels. les limites de la perception et de l'interaction des machines avec des environnements complexes et multisensoriels.

Chez Ultralytics, nous intégrons ces avancées dans notre Ultralytics , permettant aux utilisateurs de gérer des données, de former des modèles et de déployer des solutions qui exploitent toute la gamme des modalités disponibles, de la vitesse de YOLO26 à la polyvalence de la détection à vocabulaire ouvert.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant