Découvrez l'IA Multimodale, le domaine où les systèmes traitent et comprennent diverses données telles que le texte, les images et l'audio. Découvrez comment cela fonctionne et explorez les principales applications.
L'IA multimodale est une branche sophistiquée de l'intelligence l'intelligence artificielle (IA) qui traite, interprète et raisonne en utilisant simultanément plusieurs types de données. Contrairement aux systèmes unimodaux traditionnels qui s'appuient sur une seule source d'entrée, tels que les les grands modèles de langage (LLM) ou les classificateurs les systèmes multimodaux intègrent divers flux de données tels que du texte, des images, du son, de la vidéo et des relevés de capteurs. Cette approche imite la perception humaine, qui combine naturellement la vue, le son et le langage pour former une compréhension globale de l'environnement. compréhension globale de l'environnement. En synthétisant ces différentes modalités, ces systèmes atteignent une précision et une meilleure connaissance du contexte, se rapprochant ainsi des capacités de l'intelligence générale artificielle (AGI). l'intelligence générale artificielle (AGI).
L'architecture d'un système multimodal comprend généralement trois étapes distinctes : l'encodage, la fusion et le décodage. Tout d'abord, des réseaux neuronaux distincts, tels que les réseaux neuronaux convolutifs (CNN) pour les données visuelles et les transformateurs pour les données textuelles, extraient des caractéristiques de chaque type d'entrée. Ces caractéristiques sont converties en vecteurs numériques appelés encastrements.
La phase critique est celle de la fusion, au cours de laquelle ces encastrements sont combinés dans un espace de représentation partagé. Les techniques techniques de fusion avancées utilisent des mécanismes d'attention pour évaluer l'importance l'importance des différentes modalités les unes par rapport aux autres. Par exemple, dans une tâche d'analyse vidéo, le modèle peut donner la priorité aux données audio lorsqu'un personnage parle, mais se concentrer sur les données visuelles lors d'une séquence d'action. Des outils tels que PyTorch et TensorFlow de calcul pour construire ces architectures complexes. architectures complexes.
L'IA multimodale stimule l'innovation dans divers secteurs en résolvant des problèmes qui nécessitent une vision holistique des données.
Si les modèles multimodaux complets sont complexes, leurs composants sont souvent des modèles spécialisés accessibles. Par exemple, la composante vision d'un pipeline multimodal utilise souvent un détecteur d'objets à grande vitesse. vision d'un pipeline multimodal utilise souvent un détecteur d'objets à grande vitesse. Voici un exemple utilisant Ultralytics YOLO11 pour extraire des concepts visuels (classes) d'une d'une image, qui pourraient ensuite être introduits dans un modèle de langage pour un raisonnement plus approfondi.
from ultralytics import YOLO
# Load a pretrained YOLO11 model for object detection
model = YOLO("yolo11n.pt")
# Run inference on an image to identify visual elements
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detected objects and their probabilities
# In a multimodal pipeline, these textual class names act as input for an LLM
for result in results:
result.show() # Visualize the detections
print(result.boxes.cls) # Print class indices
Il est utile de différencier l'IA multimodale des termes similaires pour mieux comprendre le paysage :
Le domaine évolue rapidement vers des systèmes capables de générer et de comprendre de manière transparente n'importe quelle modalité. Les instituts de recherche comme Google DeepMind et OpenAI repoussent les limites des modèles de fondation pour mieux aligner les espaces latents textuels et visuels. espaces latents.
Chez Ultralytics, nous faisons progresser en permanence la composante vision de cet écosystème. Le prochain YOLO26 est conçu pour offrir encore plus d'efficacité et de précision. d'efficacité et de précision, et servira de base visuelle solide pour les futures applications multimodales. Les utilisateurs intéressés par l'exploitation de peuvent explorer l'intégration avec des l'intégration avec des outils tels que LangChain pour construire leurs propres systèmes de raisonnement complexes.