Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modèle multimodal

Découvrez comment les modèles d'IA multimodaux intègrent du texte, des images et bien plus encore pour créer des systèmes robustes et polyvalents pour des applications concrètes.

Un modèle multimodal est un système d'intelligence système avancé d'intelligence artificielle (IA) capable de traiter, d'interpréter et d'intégrer simultanément des informations provenant de différents types de données, ou "modalités". ou "modalités", simultanément. Contrairement aux systèmes unimodaux traditionnels qui se spécialisent dans un seul domaine, comme le le traitement du langage naturel (NLP) pour le texte ou la vision par ordinateur (VA) pour les images, les modèles multimodaux sont capables d'analyser des informations provenant de différents types de données. pour les images, les modèles multimodaux peuvent analyser à la fois le texte, les images, l'audio, la vidéo et les données des capteurs. Cette convergence permet au modèle Cette convergence permet au modèle de développer une compréhension plus complète et plus humaine du monde, car il peut établir des corrélations entre les indices visuels et les descriptions linguistiques. entre les indices visuels et les descriptions linguistiques. Cette capacité est fondamentale pour le développement des futurs systèmes d intelligence artificielle générale (AGI) et est actuellement le moteur de l'innovation dans des domaines allant de la robotique à la création automatisée de contenu.

Mécanismes de base

L'efficacité des modèles multimodaux repose sur leur capacité à mettre en correspondance différents types de données dans un espace sémantique commun. sémantique. Ce processus commence généralement par la génération de représentations numériquesdes données qui capturent leur qui capturent leur signification essentielle. En s'entraînant sur des ensembles massifs de données d'exemples appariés, tels que des images avec des légendes, le modèle apprend à aligner l'encastrement des données sur la base d'une représentation numérique. modèle apprend à aligner l'intégration de l'image d'un "chien" avec l'intégration du texte pour le mot "chien". "chien".

Des innovations architecturales majeures rendent cette intégration possible :

  • Architecture du transformateur: A l'origine proposée dans l'article "Attention Is All You Need", les transformateurs utilisent des mécanismes d'attention pour pour évaluer de manière dynamique l'importance des différentes parties de l'entrée. Cela permet au modèle de se concentrer sur les régions visuelles pertinentes lors du traitement d'une requête textuelle spécifique.
  • Fusion de données : Les informations provenant de différentes sources doivent être combinées efficacement. Les stratégies vont de la la fusion précoce (combinaison de données brutes) à la fusion tardive (combinaison de décisions de modèles). Les cadres modernes tels que PyTorch et TensorFlow fournissent les outils flexibles nécessaires à la mise en œuvre de ces architectures complexes.

Applications concrètes

Les modèles multimodaux ont débloqué de nouvelles capacités qui étaient auparavant impossibles avec des systèmes à modalité unique.

  • Réponse aux questions visuelles (VQA): Ces systèmes peuvent analyser une image et répondre à des questions en langage naturel à son sujet. Par exemple, un utilisateur malvoyant peut demander Le modèle traite le flux vidéo en direct (visuel) et la question (texte) pour fournir une réponse audio. la question (texte) pour fournir une réponse audio.
  • Génération de textes à partir d'images: Les principaux outils d'IA outils d'IA générative de pointe tels que DALL-E 3 d'OpenAI acceptent des textes descriptifs et génèrent des images des images de haute fidélité. Cela nécessite une compréhension approfondie de la manière dont les concepts textuels se traduisent par des attributs visuels tels que la texture, l'éclairage et la composition. comme la texture, l'éclairage et la composition.
  • Détection d'objets à vocabulaire ouvert : Des modèles comme Ultralytics YOLO permettent aux utilisateurs de detect objets à l'aide d'un texte arbitraire plutôt que d'une liste fixe de classes. Cela permet de combler le fossé entre les commandes linguistiques et la reconnaissance visuelle. et la reconnaissance visuelle.

L'exemple suivant montre comment utiliser la fonction ultralytics pour effectuer la détection du vocabulaire ouvert, où le modèle détecte les objets sur la base d'entrées de texte personnalisées. où le modèle détecte des objets basés sur des entrées de texte personnalisées :

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show results
results[0].show()

Distinctions par rapport aux termes apparentés

Il est important de différencier le "modèle multimodal" des concepts apparentés dans le glossaire de l'IA :

  • L'apprentissage multimodal: Il s'agit du processus et des techniques d'apprentissage automatique utilisés pour former ces systèmes. fait référence au processus et aux techniques d'apprentissage automatique utilisés pour former ces systèmes. Un modèle multimodal est est le résultat d'un apprentissage multimodal réussi.
  • Les grands modèles de langage (LLM): Alors que les LLM traditionnels ne traitent que du texte, nombre d'entre eux évoluent vers des modèles vision-langage (VLM). Cependant, un LLM standard est unimodal, alors qu'un modèle multimodal est explicitement conçu pour des types d'entrée multiples.
  • Modèles de fondation: Il s'agit d'une catégorie plus large décrivant des modèles à grande échelle adaptables à de nombreuses tâches en aval. Un modèle multimodal est souvent un type de modèle de base, mais tous les modèles de base ne sont pas multimodaux.

L'avenir de l'IA multimodale

Le domaine progresse rapidement vers des modèles capables de traiter des flux continus d'audio, de vidéo et de texte en temps réel. en temps réel. Les recherches menées par des organisations telles que Google DeepMind continuent de repousser les limites de ce que ces systèmes peuvent percevoir. les limites de ce que ces systèmes peuvent percevoir. Chez Ultralytics, alors que notre produit phare, le YOLO11 établissent la norme en matière de vitesse et de précision dans la détection d'objets, nous innovons également avec des architectures telles que YOLO26, qui améliorent encore l'efficacité l'efficacité des applications en périphérie et dans le nuage. À l'avenir, la plateforme Ultralytics Platform offrira un environnement unifié pour gérer les données, la formation et le déploiement de ces flux de travail d'IA de plus en plus complexes.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant