Apprentissage multimodal
Découvrez la puissance de l'apprentissage multimodal dans l'IA ! Découvrez comment les modèles intègrent divers types de données pour une résolution de problèmes plus riche et plus réaliste.
L'apprentissage multimodal est un sous-domaine avancé de l'apprentissage
l'apprentissage machine (ML) où les algorithmes sont
algorithmes sont formés pour traiter, comprendre et mettre en corrélation des informations provenant de plusieurs types de données distincts, appelés modalités.
Alors que les systèmes d'IA traditionnels se concentrent souvent sur un seul type d'entrée - comme le texte pour la traduction linguistique ou les pixels pour la
reconnaissance d'images, l'apprentissage multimodalimite la
l'apprentissage multimodal imite la cognition humaine en intégrant diverses entrées sensorielles telles que des données visuelles, des sons parlés, des descriptions textuelles et des relevés de capteurs.
capteurs. Cette approche holistique permet à
l'intelligence artificielle (IA) de développer
Cette approche holistique permet à l'intelligence artificielle (IA) de développer une compréhension plus profonde et contextuelle du monde, ce qui conduit à des modèles prédictifs plus robustes et plus polyvalents.
Les mécanismes de l'intégration multimodale
Le principal défi de l'apprentissage multimodal consiste à traduire différents types de données dans un espace mathématique commun où elles peuvent être comparées et combinées.
où elles peuvent être comparées et combinées. Ce processus comporte généralement trois étapes principales : l'encodage, l'alignement et la fusion.
-
Encodage : Des réseaux neuronaux spécialisés traitent chaque modalité de manière indépendante. Par exemple,
réseaux neuronaux convolutionnels (CNN)
ou les transformateurs de vision (ViT) extraient les
caractéristiques des images, tandis que les
réseaux neuronaux récurrents (RNN ) ou les
Transformers traitent le texte.
-
Alignement : Le modèle apprend à cartographier ces diverses caractéristiques dans des vecteurs partagés à haute dimension
appelés " embeddings". Dans cet espace partagé, le vecteur
du mot "chien" et le vecteur d'une image de chien sont rapprochés. Des techniques telles que
l 'apprentissage contrastif, popularisées par des articles
tels que CLIP de l'OpenAI, sont essentielles ici.
-
Fusion : Enfin, les informations sont fusionnées pour effectuer une tâche. La fusion peut avoir lieu au début (en combinant les données
données brutes), tardivement (en combinant les prédictions finales), ou par le biais de méthodes hybrides intermédiaires utilisant le mécanisme d'attention pour pondérer l'importance de l'information.
mécanisme d'attention pour pondérer l'importance de chaque modalité
de chaque modalité de manière dynamique.
Applications concrètes
L'apprentissage multimodal est le moteur de bon nombre des percées les plus impressionnantes de l'IA, car il comble le fossé entre les silos de données distincts.
silos de données distincts.
-
Réponse aux questions visuelles (VQA) : En
Visual Question Answering (VQA), un système
système doit analyser une image et répondre à une question en langage naturel, telle que "De quelle couleur est le feu de signalisation ?
le feu de circulation ?". Pour ce faire, le modèle doit comprendre la sémantique du texte et localiser dans l'espace les éléments visuels correspondants.
éléments visuels correspondants.
-
Navigation autonome : Les voitures auto-conduites s'appuient fortement sur
la fusion de capteurs, combinant des données provenant de nuages de points LiDAR,
de la caméra et du radar pour naviguer en toute sécurité. Ces données multimodales garantissent que si un capteur tombe en panne (par exemple, une caméra aveuglée par l'éblouissement du soleil), les autres peuvent maintenir la sécurité.
caméra aveuglée par l'éblouissement du soleil), les autres peuvent maintenir la sécurité.
-
Diagnostic médical :
L'IA dans les soins de santé utilise l'apprentissage multimodal
en analysant des images médicales (comme des IRM ou des radiographies) ainsi que des données textuelles non structurées sur les antécédents du patient et des données génétiques.
Cette vision globale aide les médecins à établir des diagnostics plus précis, un sujet fréquemment abordé dans les revues Nature Digital Medicine.
Nature Digital Medicine.
Détection multimodale d'objets avec Ultralytics
Alors que les détecteurs d'objets standard s'appuient sur des classes prédéfinies, les approches multimodales telles que
YOLO permettent aux utilisateurs de detect objets à l'aide d'invites textuelles à vocabulaire ouvert.
de détecter des objets à l'aide d'invites textuelles à vocabulaire ouvert. Cela démontre la puissance du lien entre les concepts textuels et les caractéristiques visuelles.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Différencier les termes clés
Pour naviguer dans le paysage de l'IA moderne, il est utile de distinguer l'"apprentissage multimodal" des concepts connexes :
-
Modèles multimodaux:
"L'apprentissage multimodal fait référence à la méthodologie et au domaine d'étude. Un "modèle
multimodal" (comme GPT-4 ou Gemini) est l'artefact ou le
spécifique ou le produit logiciel résultant de ce processus de formation.
-
Vision par ordinateur (VA): CV est
est généralement unimodale et se concentre exclusivement sur les données visuelles. Alors qu'un modèle comme
Ultralytics YOLO11 est un outil de CV à la pointe de la technologie, il
fait partie d'un pipeline multimodal lorsque ses résultats sont combinés avec des données audio ou textuelles.
-
Les grands modèles de langage (LLM):
Les LLM traditionnels sont unimodaux, formés uniquement sur du texte. Cependant, l'industrie s'oriente vers les "grands modèles multimodaux" (LMM) qui peuvent traiter nativement les images et le texte.
multimodaux" (LMM) qui peuvent traiter nativement les images et le texte, une tendance soutenue par des frameworks tels que
PyTorch et TensorFlow.
Perspectives d'avenir
La trajectoire de l'apprentissage multimodal s'oriente vers des systèmes dotés d'une intelligence générale artificielle (AGI).
l'intelligence générale artificielle (AGI)
(AGI). En réussissant à ancrer le langage dans la réalité visuelle et physique, ces modèles vont au-delà de la corrélation statistique vers un véritable raisonnement.
de la corrélation statistique vers un véritable raisonnement. Des recherches menées par des institutions telles que le
MIT CSAIL et le
Stanford Center for Research on Foundation Models continue de repousser les limites de la perception et de l'interaction des machines avec des systèmes complexes et multisensoriels.
les limites de la perception et de l'interaction des machines avec des environnements complexes et multisensoriels.