Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Multi-Modal Model

Explora cómo los modelos multimodales integran texto, imágenes y audio. Conoce arquitecturas como Ultralytics YOLO26 e implementa IA de visión en la Plataforma Ultralytics.

Un modelo multimodal es un tipo avanzado de sistema de inteligencia artificial (IA) capaz de procesar, interpretar e integrar información de múltiples tipos de datos diferentes, o "modalidades", simultáneamente. Mientras que los sistemas unimodales tradicionales se especializan en un único dominio, como el Procesamiento de Lenguaje Natural (PLN) para texto o la Visión Artificial (CV) para imágenes, los modelos multimodales buscan imitar la percepción humana sintetizando pistas visuales, auditivas y lingüísticas. Esta convergencia permite al modelo desarrollar una comprensión integral del mundo, permitiéndole establecer correlaciones complejas entre una escena visual y una descripción hablada. Estas capacidades se consideran pasos fundamentales hacia el logro de la Inteligencia Artificial General (IAG).

Link to this sectionMecanismos y arquitectura centrales#

La eficacia de un modelo multimodal depende de su capacidad para mapear diversos tipos de datos en un espacio semántico compartido. Este proceso comienza generalmente con la creación de embeddings, que son representaciones numéricas que capturan el significado esencial de los datos de entrada. Al entrenarse con conjuntos de datos masivos de ejemplos emparejados, como vídeos con subtítulos, el modelo aprende a alinear la representación vectorial de una imagen de un "gato" con el embedding de texto para la palabra "gato".

Varios conceptos arquitectónicos clave hacen posible esta integración:

  • Arquitectura Transformer: Muchos sistemas multimodales utilizan Transformers, que emplean mecanismos de atención para ponderar dinámicamente la importancia de diferentes partes de la entrada. Esto permite que un modelo se centre en regiones específicas de la imagen que corresponden a palabras relevantes en un prompt de texto, un concepto detallado en el artículo de investigación seminal "Attention Is All You Need".
  • Fusión de datos: Se refiere a la estrategia de combinar información de diferentes fuentes. La fusión de sensores puede ocurrir de forma temprana mediante la combinación de datos sin procesar o de forma tardía combinando las decisiones de submodelos separados. Marcos de trabajo modernos como PyTorch proporcionan la flexibilidad necesaria para construir estas complejas canalizaciones.
  • Aprendizaje contrastivo: Las técnicas utilizadas por modelos como CLIP de OpenAI entrenan al sistema para minimizar la distancia entre pares de texto-imagen coincidentes en el espacio vectorial, mientras maximizan la distancia entre pares no coincidentes.

Link to this sectionAplicaciones en el mundo real#

Los modelos multimodales han desbloqueado capacidades que antes eran imposibles de lograr para los sistemas de una sola modalidad.

  • Respuesta a Preguntas Visuales (VQA): Estos sistemas permiten a los usuarios hacer preguntas en lenguaje natural sobre una imagen. Por ejemplo, un usuario con discapacidad visual podría subir una foto de una despensa y preguntar: "¿Hay una lata de sopa en el estante superior?". El modelo utiliza detección de objetos para identificar elementos y PLN para entender la consulta, proporcionando una respuesta útil.
  • Vehículos autónomos: Los coches autónomos funcionan como agentes multimodales en tiempo real. Combinan fuentes visuales de cámaras, información de profundidad de LiDAR y datos de velocidad de radar. Esta redundancia asegura que si un sensor queda obstruido por el clima, otros puedan mantener la seguridad vial.
  • Detección de vocabulario abierto: Modelos como Ultralytics YOLO-World permiten a los usuarios detectar objetos usando prompts de texto arbitrarios en lugar de una lista fija de clases. Esto salva la brecha entre comandos lingüísticos y reconocimiento visual.

Link to this sectionEjemplo: Detección de vocabulario abierto#

El siguiente ejemplo demuestra cómo utilizar la biblioteca ultralytics para realizar detección de vocabulario abierto, donde el modelo interpreta prompts de texto para identificar objetos en una imagen:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

Link to this sectionDistinciones con términos relacionados#

Es útil diferenciar "Modelo multimodal" de conceptos relacionados en el glosario de IA:

  • Aprendizaje multimodal: Esto se refiere al proceso y a las técnicas de aprendizaje automático (ML) utilizadas para entrenar estos sistemas. El modelo multimodal es el artefacto o producto de software resultante de ese proceso de aprendizaje.
  • Modelos de lenguaje grande (LLMs): Los LLMs tradicionales procesan solo texto. Aunque muchos están evolucionando hacia Modelos de Visión-Lenguaje (VLM), un LLM estándar es unimodal.
  • Modelos de base: Esta es una categoría más amplia que describe modelos a gran escala adaptables a muchas tareas posteriores. Aunque un modelo multimodal es a menudo un modelo de base, no todos los modelos de base manejan múltiples modalidades.

Link to this sectionEl futuro de la IA multimodal#

El campo avanza rápidamente hacia sistemas que pueden procesar flujos continuos de audio, vídeo y texto en tiempo real. La investigación de organizaciones como Google DeepMind continúa ampliando los límites de la percepción de las máquinas. En Ultralytics, apoyamos este ecosistema con backbones de visión de alto rendimiento como YOLO26. Lanzado en 2026, YOLO26 ofrece una velocidad y precisión superiores para tareas como la segmentación de instancias, sirviendo como un componente visual eficiente en canalizaciones multimodales más grandes. Los desarrolladores pueden gestionar los datos, el entrenamiento y el despliegue de estos flujos de trabajo complejos utilizando la Plataforma Ultralytics unificada.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático