Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

IA Multimodale

Découvrez l'IA Multimodale, le domaine où les systèmes traitent et comprennent diverses données telles que le texte, les images et l'audio. Découvrez comment cela fonctionne et explorez les principales applications.

L'IA multimodale est une branche sophistiquée de l'intelligence l'intelligence artificielle (IA) qui traite, interprète et raisonne en utilisant simultanément plusieurs types de données. Contrairement aux systèmes unimodaux traditionnels qui s'appuient sur une seule source d'entrée, tels que les les grands modèles de langage (LLM) ou les classificateurs les systèmes multimodaux intègrent divers flux de données tels que du texte, des images, du son, de la vidéo et des relevés de capteurs. Cette approche imite la perception humaine, qui combine naturellement la vue, le son et le langage pour former une compréhension globale de l'environnement. compréhension globale de l'environnement. En synthétisant ces différentes modalités, ces systèmes atteignent une précision et une meilleure connaissance du contexte, se rapprochant ainsi des capacités de l'intelligence générale artificielle (AGI). l'intelligence générale artificielle (AGI).

La mécanique des systèmes multimodaux

L'architecture d'un système multimodal comprend généralement trois étapes distinctes : l'encodage, la fusion et le décodage. Tout d'abord, des réseaux neuronaux distincts, tels que les réseaux neuronaux convolutifs (CNN) pour les données visuelles et les transformateurs pour les données textuelles, extraient des caractéristiques de chaque type d'entrée. Ces caractéristiques sont converties en vecteurs numériques appelés encastrements.

La phase critique est celle de la fusion, au cours de laquelle ces encastrements sont combinés dans un espace de représentation partagé. Les techniques techniques de fusion avancées utilisent des mécanismes d'attention pour évaluer l'importance l'importance des différentes modalités les unes par rapport aux autres. Par exemple, dans une tâche d'analyse vidéo, le modèle peut donner la priorité aux données audio lorsqu'un personnage parle, mais se concentrer sur les données visuelles lors d'une séquence d'action. Des outils tels que PyTorch et TensorFlow de calcul pour construire ces architectures complexes. architectures complexes.

Applications concrètes

L'IA multimodale stimule l'innovation dans divers secteurs en résolvant des problèmes qui nécessitent une vision holistique des données.

  1. Réponse aux questions visuelles (VQA) : Cette application permet aux utilisateurs d'interagir avec des images en utilisant le langage naturel. Un utilisateur peut télécharger la photo d'un réfrigérateur et demander : "Quels sont les ingrédients disponibles pour cuisiner ?" Le système utilise la vision par ordinateur (VA) pour identifier les objets et le traitement du langage naturel (NLP) pour comprendre la requête et formuler une réponse. Ceci est essentiel pour développement d'outils d'accessibilité pour les pour les personnes malvoyantes.
  2. Navigation autonome : Les voitures auto-conduites et la robotique s'appuient fortement sur la fusion de capteurs. robotique s'appuient fortement sur la fusion de capteurs. Ils combinent Ils combinent les données des caméras, du LiDAR et des radars pour detect obstacles, lire les panneaux de signalisation et prévoir le comportement des piétons. Cette intégration Cette intégration garantit la sécurité et la fiabilité dans des environnements dynamiques, ce qui est au cœur des préoccupations de l'IA dans l'industrie automobile. l 'IA dans l'industrie automobile.
  3. Diagnostic médical : Les outils de diagnostic modernes intègrent l'analyse d'images médicales (radiographies, IRM) avec des les dossiers cliniques textuels et les données génomiques. En analysant ces modalités ensemble, l'IA peut fournir des diagnostics plus précis et des plans de traitement personnalisés. des diagnostics plus précis et des plans de traitement personnalisés, révolutionnant ainsi l'IA dans le secteur de la santé. l 'IA dans les soins de santé.

Mise en œuvre de la vision dans les pipelines multimodaux

Si les modèles multimodaux complets sont complexes, leurs composants sont souvent des modèles spécialisés accessibles. Par exemple, la composante vision d'un pipeline multimodal utilise souvent un détecteur d'objets à grande vitesse. vision d'un pipeline multimodal utilise souvent un détecteur d'objets à grande vitesse. Voici un exemple utilisant Ultralytics YOLO11 pour extraire des concepts visuels (classes) d'une d'une image, qui pourraient ensuite être introduits dans un modèle de langage pour un raisonnement plus approfondi.

from ultralytics import YOLO

# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")

# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
    result.show()  # Visualize the detections
    print(result.boxes.cls)  # Print class indices

Distinguer les concepts apparentés

Il est utile de différencier l'IA multimodale des termes similaires pour mieux comprendre le paysage :

  • L'apprentissage multimodal: Il s'agit est le processus technique ou la discipline qui consiste à former des algorithmes pour qu'ils apprennent à partir de types de données mixtes. Il se concentre sur les fonctions de perte et les stratégies d'optimisation utilisées pendant l 'apprentissage du modèle.
  • Modèles multimodaux: Il s'agit les artefacts spécifiques ou les architectures distinctes (comme GPT-4o ou Gemini) résultant du processus d'apprentissage.
  • Modèles de vision spécialisés : Modèles tels que Ultralytics YOLO11 sont des experts spécialisés. Alors qu'un modèle multimodal peut décrire une scène de manière générale ("une rue animée"), un modèle spécialisé excelle dans la détection précise d'objets et dans l'analyse de l'environnement. détection d'objets et la segmentation d'instances, en fournissant des coordonnées coordonnées et des masques exacts. Les modèles spécialisés sont souvent plus rapides et plus efficaces pour les tâches en temps réel. comparaison entre YOLO11 et RT-DETR.

Orientations futures

Le domaine évolue rapidement vers des systèmes capables de générer et de comprendre de manière transparente n'importe quelle modalité. Les instituts de recherche comme Google DeepMind et OpenAI repoussent les limites des modèles de fondation pour mieux aligner les espaces latents textuels et visuels. espaces latents.

Chez Ultralytics, nous faisons progresser en permanence la composante vision de cet écosystème. Le prochain YOLO26 est conçu pour offrir encore plus d'efficacité et de précision. d'efficacité et de précision, et servira de base visuelle solide pour les futures applications multimodales. Les utilisateurs intéressés par l'exploitation de peuvent explorer l'intégration avec des l'intégration avec des outils tels que LangChain pour construire leurs propres systèmes de raisonnement complexes.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant