Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Multimodal AI

Explora la IA multimodal y cómo integra texto y visión para una comprensión consciente del contexto. Aprende a usar Ultralytics YOLO26 y modelos de vocabulario abierto hoy mismo.

La IA multimodal hace referencia a una sofisticada clase de sistemas de inteligencia artificial (IA) diseñados para procesar, interpretar y sintetizar información de múltiples tipos de datos, o "modalidades", de forma simultánea. A diferencia de los sistemas unimodales tradicionales, que se especializan en una única fuente de entrada (como el Procesamiento de Lenguaje Natural (NLP) para texto o la Visión por Computador (CV) para imágenes), la IA multimodal imita la percepción humana al integrar diversos flujos de datos. Esta integración puede incluir la combinación de datos visuales (imágenes, vídeo) con datos lingüísticos (texto, audio hablado) e información sensorial (LiDAR, radar, térmica). Al aprovechar estas entradas combinadas, estos modelos logran una comprensión más profunda y consciente del contexto de escenarios complejos del mundo real, acercándose a las capacidades generales de la Inteligencia Artificial General (AGI).

Link to this sectionCómo funcionan los sistemas multimodales#

La fuerza central de la IA multimodal reside en su capacidad para asignar diferentes tipos de datos a un espacio matemático compartido donde puedan compararse y combinarse. Este proceso suele implicar tres etapas clave: codificación, alineación y fusión.

  1. Extracción de características: Redes neuronales especializadas procesan cada modalidad de forma independiente para identificar patrones clave. Por ejemplo, una Red Neuronal Convolucional (CNN) podría extraer características visuales de una fotografía, mientras que un Transformer procesa el pie de foto correspondiente.

  2. Alineación y embeddings: Las características extraídas se convierten en vectores numéricos de alta dimensión. El modelo aprende a alinear estos vectores de modo que los conceptos semánticamente similares (por ejemplo, una imagen de un gato y la palabra "gato") se ubiquen cerca el uno del otro en el espacio vectorial. Esto a menudo se logra mediante técnicas como el aprendizaje contrastivo, un método utilizado habitualmente en modelos como CLIP de OpenAI.

  3. Fusión de datos: El sistema combina los datos alineados mediante técnicas de fusión avanzadas. Las arquitecturas modernas utilizan mecanismos de atención para ponderar dinámicamente la importancia de una modalidad sobre otra según el contexto, lo que permite al modelo centrarse en el texto cuando la imagen es ambigua, o viceversa.

Link to this sectionAplicaciones en el mundo real#

La IA multimodal ha desbloqueado capacidades que antes eran imposibles con sistemas de una sola modalidad, impulsando la innovación en diversos sectores.

  • Respuesta a preguntas visuales (VQA): En esta aplicación, un usuario puede presentar una imagen a una IA y hacerle preguntas en lenguaje natural sobre ella. Por ejemplo, un usuario con discapacidad visual podría subir una foto de una despensa y preguntar: "¿Me queda pasta?". El modelo procesa el contenido visual y la consulta textual para proporcionar una respuesta específica.
  • Vehículos autónomos: Los coches de conducción autónoma dependen en gran medida de entradas multimodales, combinando datos de cámaras, nubes de puntos LiDAR y radar para navegar de forma segura. Esta redundancia garantiza que si un sensor falla (por ejemplo, una cámara cegada por el deslumbramiento del sol), otros puedan mantener los estándares de seguridad definidos por la Society of Automotive Engineers (SAE).
  • Diagnóstico sanitario: Los sistemas avanzados de IA médica analizan el análisis de imágenes médicas (como resonancias magnéticas o radiografías) junto con el historial textual no estructurado del paciente y datos genéticos. Esta visión integral ayuda a los médicos a realizar diagnósticos más precisos, un tema tratado con frecuencia en Nature Digital Medicine.
  • IA generativa: Las herramientas que crean imágenes a partir de prompts de texto, como Stable Diffusion, dependen totalmente de la capacidad del modelo para comprender la relación entre las descripciones lingüísticas y las texturas visuales.

Link to this sectionDetección de vocabulario abierto con Ultralytics#

Mientras que los detectores de objetos estándar se basan en listas predefinidas de categorías, los enfoques multimodales como YOLO-World permiten a los usuarios detectar objetos mediante mensajes de texto de vocabulario abierto. Esto cierra la brecha entre los comandos lingüísticos y el reconocimiento visual dentro del ecosistema Ultralytics.

El siguiente ejemplo demuestra cómo usar la librería ultralytics para realizar una detección de vocabulario abierto, donde el modelo detecta objetos basándose en entradas de texto personalizadas:

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Link to this sectionDistinción de términos relacionados#

Para navegar por el panorama del aprendizaje automático moderno, es útil distinguir la "IA multimodal" de conceptos relacionados:

  • Aprendizaje multimodal: Esto se refiere a la disciplina académica y a la metodología de entrenar algoritmos con tipos de datos mixtos. "IA multimodal" se refiere generalmente a la aplicación práctica o al sistema resultante en sí.
  • Modelos de lenguaje grandes (LLMs): Los LLM tradicionales son unimodales, entrenados exclusivamente con datos de texto. Sin embargo, el sector está migrando hacia "Modelos multimodales grandes" (LMMs) que pueden procesar de forma nativa imágenes y texto, una tendencia respaldada por marcos de trabajo como PyTorch y TensorFlow.
  • Modelos de visión especializados: Modelos como el vanguardista Ultralytics YOLO26 son expertos altamente especializados en tareas visuales. Mientras que un modelo multimodal general podría describir una escena a grandes rasgos, los modelos especializados destacan en la detección de objetos precisa y de alta velocidad, además del procesamiento en tiempo real en hardware periférico.

Link to this sectionPerspectivas de futuro#

La trayectoria de la IA multimodal apunta hacia sistemas que poseen mayores capacidades de razonamiento. Al fundamentar con éxito el lenguaje en la realidad visual y física, estos modelos están yendo más allá de la correlación estadística hacia una comprensión genuina. La investigación de instituciones como Google DeepMind y el Stanford Center for Research on Foundation Models sigue ampliando los límites de cómo las máquinas perciben entornos complejos.

En Ultralytics, estamos integrando estos avances en la Plataforma Ultralytics, permitiendo a los usuarios gestionar datos, entrenar modelos e implementar soluciones que aprovechan todo el espectro de modalidades disponibles, combinando la velocidad de YOLO26 con la versatilidad de las entradas multimodales.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático