Apprentissage multimodal
Découvrez l'apprentissage multimodal dans le domaine de l'IA. Apprenez comment il intègre le texte, la vision et l'audio pour créer des modèles robustes tels que Ultralytics et YOLO. Découvrez-en plus dès aujourd'hui !
L'apprentissage multimodal est une approche sophistiquée de l'
intelligence artificielle (IA) qui forme des
algorithmes à traiter, comprendre et corréler des informations provenant de plusieurs types de données distincts, ou
« modalités ». Contrairement aux systèmes traditionnels spécialisés dans un seul type d'entrée, comme le texte pour latraduction
ou les pixels pour la reconnaissance d'images, l'apprentissage multimodal
imite la cognition humaine en intégrant diverses entrées sensorielles telles que les données visuelles, l'audio parlé, les descriptions textuelles
et les lectures de capteurs. Cette approche holistique permet aux
modèles d'apprentissage automatique (ML) de développer une
compréhension plus approfondie et contextuelle du monde, ce qui conduit à des prédictions plus robustes et polyvalentes.
Fonctionnement de l’apprentissage multimodal
Le principal défi de l'apprentissage multimodal consiste à traduire différents types de données dans un espace mathématique commun où
ils peuvent être comparés et combinés. Ce processus comprend généralement trois étapes principales : l'encodage, l'alignement et la fusion.
-
Extraction de caractéristiques:
Des réseaux neuronaux spécialisés traitent chaque modalité indépendamment. Par exemple,
les réseaux neuronaux convolutifs (CNN)
ou les transformateurs de vision (ViT) peuvent
extraire des caractéristiques à partir d'images, tandis que
les réseaux neuronaux récurrents (RNN) ou
les transformateurs traitent le texte.
-
Alignement des intégrations: le modèle
apprend à mapper ces caractéristiques diverses dans des vecteurs communs à haute dimension. Dans cet espace commun, le vecteur du
mot « chat » et le vecteur d'une image de chat sont rapprochés. Des techniques telles que l'
apprentissage contrastif, popularisées par des articles
tels que CLIP d'OpenAI, sont essentielles ici.
-
Fusion des données: enfin, les informations sont
fusionnées pour effectuer une tâche. La fusion peut avoir lieu tôt (combinaison des données brutes), tard (combinaison des prédictions finales) ou via des
méthodes hybrides intermédiaires utilisant le
mécanisme d'attention pour pondérer l'importance
de chaque modalité de manière dynamique.
Applications concrètes
L'apprentissage multimodal est le moteur de nombreuses avancées impressionnantes en matière d'IA, comblant le fossé entre
différents silos de données pour résoudre des problèmes complexes.
-
Réponse à des questions visuelles (VQA):
Dans cette application, un système doit analyser une image et répondre à une question en langage naturel à son sujet, telle que
« De quelle couleur est le feu de signalisation ? ». Cela nécessite que le modèle comprenne la sémantique du texte et
localise spatialement les éléments visuels correspondants à l'aide de la
vision par ordinateur.
-
Véhicules autonomes:
Les voitures autonomes s'appuient fortement sur la fusion de capteurs, combinant les données provenant des nuages de points LiDAR, des flux vidéo des caméras et des
radars pour naviguer en toute sécurité. Cette entrée multimodale garantit que si un capteur tombe en panne (par exemple, une caméra aveuglée par le soleil
), les autres peuvent maintenir la
sécurité routière.
-
Diagnostic médical: l'IA dans le
domaine de la santé utilise l'apprentissage multimodal en analysant
des images médicales (comme les IRM ou les
radiographies) ainsi que les antécédents médicaux non structurés et les données génétiques des patients. Cette vision globale aide les médecins à
établir des diagnostics plus précis, un sujet fréquemment abordé dans les
revues Nature Digital Medicine.
-
IA générative: les outils qui créent des
images à partir de suggestions textuelles, tels que
Stable Diffusion, reposent entièrement sur la capacité du modèle à
comprendre la relation entre les descriptions linguistiques et les textures visuelles.
Détection multimodale d'objets avec Ultralytics
Alors que les détecteurs d'objets standard s'appuient sur des classes prédéfinies, les approches multimodales telles que
YOLO permettent aux utilisateurs de detect à l'aide de
commandes textuelles à vocabulaire ouvert. Cela démontre la puissance de la mise en relation des concepts textuels avec les caractéristiques visuelles au sein de Ultralytics .
L'extrait Python suivant montre comment utiliser un modèle YOLO pré-entraîné pour detect à partir de
saisies de texte personnalisées.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Différencier les termes clés
Pour naviguer dans le paysage de l'IA moderne, il est utile de distinguer l'"apprentissage multimodal" des concepts connexes :
-
Modèle multimodal:
Le « apprentissage multimodal » fait référence à la méthodologie et au domaine d'étude. Un « modèle multimodal
» (comme GPT-4 ou Gemini Google) est l'artefact ou le produit logiciel spécifique
résultant de ce processus d'entraînement.
-
IA unimodale: traditionnelle
La vision par ordinateur est généralement unimodale, se concentrant exclusivement sur les données visuelles. Si un modèle tel que
Ultralytics est un outil de CV de pointe pour la
détection d'objets, il fonctionne généralement uniquement sur des entrées visuelles, à moins de faire partie d'un pipeline multimodal plus large.
-
Les grands modèles de langage (LLM):
Les LLM traditionnels sont unimodaux, formés uniquement sur du texte. Cependant, l'industrie s'oriente vers les "grands modèles multimodaux" (LMM) qui peuvent traiter nativement les images et le texte.
multimodaux" (LMM) qui peuvent traiter nativement les images et le texte, une tendance soutenue par des frameworks tels que
PyTorch et TensorFlow.
Perspectives d'avenir
La trajectoire de l'apprentissage multimodal s'oriente vers des systèmes dotés d'une intelligence générale artificielle (AGI).
l'intelligence générale artificielle (AGI)
(AGI). En réussissant à ancrer le langage dans la réalité visuelle et physique, ces modèles vont au-delà de la corrélation statistique vers un véritable raisonnement.
de la corrélation statistique vers un véritable raisonnement. Des recherches menées par des institutions telles que le
MIT CSAIL et le
Stanford Center for Research on Foundation Models continue de repousser les limites de la perception et de l'interaction des machines avec des systèmes complexes et multisensoriels.
les limites de la perception et de l'interaction des machines avec des environnements complexes et multisensoriels.
Chez Ultralytics, nous intégrons ces avancées dans notre
Ultralytics , permettant aux utilisateurs de gérer des données, de former des modèles et de
déployer des solutions qui exploitent toute la gamme des modalités disponibles, de la vitesse de
YOLO26 à la polyvalence de la détection à vocabulaire ouvert.