Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
IA de visión

Modelos multimodales y aprendizaje multimodal: ampliando las capacidades de la IA

Explora cómo los modelos multimodales integran texto, imágenes, audio y datos de sensores para potenciar la percepción, el razonamiento y la toma de decisiones de la IA.

ABAbdelrahman Elgendy
5 min read
Modelos de IA multimodal integrando texto, imágenes, audio y datos de sensores

Los sistemas de IA tradicionales suelen procesar información de una única fuente de datos, como texto, imágenes o audio. Aunque estos enfoques unimodales son excelentes en tareas especializadas, a menudo no logran manejar escenarios complejos del mundo real que involucran múltiples entradas simultáneas. El aprendizaje multimodal soluciona esto al integrar diversos flujos de datos dentro de un marco unificado, lo que permite una comprensión más rica y consciente del contexto.

Inspirados en la percepción humana, los modelos multimodales analizan, interpretan y actúan basándose en entradas combinadas, de forma muy parecida a como los humanos integramos naturalmente la vista, el sonido y el lenguaje. Estos modelos permiten que la IA maneje escenarios complejos con mayor precisión, robustez y adaptabilidad.

En este artículo, exploraremos cómo evolucionaron los modelos multimodales, analizaremos cómo funcionan, hablaremos de sus aplicaciones prácticas dentro de la visión artificial y evaluaremos las ventajas y los desafíos asociados a la integración de múltiples tipos de datos.

Link to this section¿Qué es el aprendizaje multimodal?#

Quizás te preguntes qué es exactamente el aprendizaje multimodal y por qué es importante para la inteligencia artificial (IA). Los modelos de IA tradicionales suelen manejar un tipo de dato a la vez, ya sean imágenes, texto, audio o entradas de sensores.

El aprendizaje multimodal, sin embargo, da un paso más allá al permitir que los sistemas analicen, interpreten e integren múltiples flujos de datos diversos de forma simultánea. Este enfoque se asemeja mucho a cómo el cerebro humano integra naturalmente las entradas visuales, auditivas y lingüísticas para formar una comprensión coherente del mundo.

Al combinar estas diferentes modalidades, la IA multimodal logra una comprensión más profunda y matizada de escenarios complejos.

Por ejemplo, al analizar grabaciones de vídeo, un sistema multimodal no solo procesa el contenido visual; también tiene en cuenta el diálogo hablado, los sonidos ambientales y los subtítulos que lo acompañan.

Esta perspectiva integrada permite a la IA captar contextos y sutilezas que se perderían si cada tipo de dato se analizara de forma independiente.

Los modelos de aprendizaje multimodal integran diversos tipos de datos

Fig 1. Los modelos de aprendizaje multimodal integran diversos tipos de datos.

En la práctica, el aprendizaje multimodal amplía lo que la IA puede lograr. Potencia aplicaciones como el subtitulado de imágenes, la respuesta a preguntas basadas en contexto visual, la generación de imágenes realistas a partir de descripciones de texto y la mejora de los sistemas interactivos haciéndolos más intuitivos y conscientes del contexto.

Pero, ¿cómo combinan los modelos multimodales estos diferentes tipos de datos para lograr estos resultados? Desglosemos paso a paso los mecanismos fundamentales detrás de su éxito.

Link to this section¿Cómo funcionan los modelos de IA multimodales?#

Los modelos de IA multimodales logran sus potentes capacidades mediante procesos especializados: extracción de características separada para cada modalidad (procesando cada tipo de dato -como imágenes, texto o audio- por sí solo), métodos de fusión (combinando los detalles extraídos) y técnicas de alineación avanzadas (asegurando que la información combinada encaje de forma coherente).

Canalización de integración y fusión de datos multimodales para tareas predictivas

Fig 2. Flujo de trabajo de integración y fusión de datos multimodales para tareas predictivas.

Analicemos con más detalle cómo funciona cada uno de estos procesos.

Link to this sectionExtracción de características separada por modalidad#

Los modelos de IA multimodales utilizan arquitecturas diferentes y especializadas para cada tipo de dato. Esto significa que las entradas visuales, textuales y de audio o sensores son procesadas por sistemas diseñados específicamente para ellas. Esto hace posible que el modelo capture los detalles únicos de cada entrada antes de reunirlos.

Aquí tienes algunos ejemplos de cómo se utilizan diferentes arquitecturas especializadas para extraer características de varios tipos de datos:

  • Datos visuales: Las redes neuronales convolucionales (CNNs) o los Vision Transformers interpretan información visual de imágenes y vídeos, produciendo representaciones detalladas de características.
  • Datos textuales: Los modelos basados en Transformer, como los de la familia GPT, convierten las entradas textuales en incrustaciones semánticas significativas.
  • Datos de audio y sensores: Redes neuronales especializadas procesan formas de onda de audio o entradas de sensores espaciales, asegurando que cada modalidad esté representada con precisión y que sus características distintivas se conserven.

Una vez procesada individualmente, cada modalidad genera características de alto nivel optimizadas para capturar la información única contenida dentro de ese tipo de dato específico.

Link to this sectionTécnicas de fusión de características#

Después de extraer las características, los modelos multimodales las fusionan en una representación unificada y coherente. Para hacerlo de forma eficaz, se utilizan varias estrategias de fusión:

  • Fusión temprana: Combina los vectores de características extraídos inmediatamente después de procesar cada modalidad. Esta estrategia fomenta interacciones intermodales más profundas al principio del proceso de análisis.
  • Fusión tardía: Mantiene la separación de modalidades hasta las etapas finales de toma de decisiones, donde se combinan las predicciones de cada modalidad, normalmente mediante métodos de conjunto como el promedio o la votación.
  • Fusión híbrida: Las arquitecturas modernas a menudo integran características varias veces a través de diversas capas del modelo, utilizando mecanismos de co-atención para resaltar y alinear dinámicamente las interacciones intermodales importantes. Por ejemplo, la fusión híbrida podría enfatizar la alineación de palabras habladas específicas o frases textuales con las características visuales correspondientes en tiempo real.

Link to this sectionMecanismos de alineación y atención intermodal#

Por último, los sistemas multimodales utilizan técnicas avanzadas de alineación y atención para asegurar que los datos de diferentes modalidades se correspondan eficazmente.

Métodos como el aprendizaje contrastivo ayudan a alinear estrechamente las representaciones visuales y textuales dentro de un espacio semántico compartido. Al hacerlo, los modelos multimodales pueden establecer conexiones fuertes y significativas a través de diversos tipos de datos, asegurando la consistencia entre lo que el modelo "ve" y "lee".

Los mecanismos de atención basados en Transformer mejoran aún más esta alineación al permitir que los modelos se centren dinámicamente en los aspectos más relevantes de cada entrada. Por ejemplo, las capas de atención permiten al modelo conectar directamente descripciones textuales específicas con sus regiones correspondientes en los datos visuales, mejorando enormemente la precisión en tareas complejas como la respuesta a preguntas visuales (VQA) y el subtitulado de imágenes.

Estas técnicas mejoran la capacidad de la IA multimodal para comprender el contexto profundamente, haciendo posible que la IA proporcione interpretaciones más matizadas y precisas de datos complejos del mundo real.

Link to this sectionLa evolución de la IA multimodal#

La IA multimodal ha evolucionado significativamente, pasando de las primeras técnicas basadas en reglas a sistemas avanzados de aprendizaje profundo capaces de una integración sofisticada.

En los primeros días, los sistemas multimodales combinaban diferentes tipos de datos, como imágenes, audio o entradas de sensores, usando reglas creadas manualmente por expertos humanos o métodos estadísticos simples. Por ejemplo, la navegación robótica temprana fusionaba imágenes de cámaras con datos de sonar para detectar y evitar obstáculos. Aunque eficaces, estos sistemas requerían una extensa ingeniería manual de características y eran limitados en su capacidad para adaptarse y generalizar.

Con la llegada del aprendizaje profundo, los modelos multimodales se hicieron mucho más populares. Las redes neuronales como los autoencoders multimodales comenzaron a aprender representaciones conjuntas de diferentes tipos de datos, particularmente datos de imagen y texto, permitiendo a la IA manejar tareas como la recuperación intermodal y encontrar imágenes basadas únicamente en descripciones textuales.

Los avances continuaron a medida que sistemas como la Respuesta a Preguntas Visuales (VQA) integraban CNNs para procesar imágenes y RNNs o Transformers para interpretar texto. Esto permitió que los modelos de IA respondieran con precisión a preguntas complejas y dependientes del contexto sobre el contenido visual.

Más recientemente, los modelos multimodales a gran escala entrenados en enormes datasets a escala de internet han revolucionado aún más las capacidades de la IA.

Estos modelos aprovechan técnicas como el aprendizaje contrastivo, permitiéndoles identificar relaciones generalizables entre el contenido visual y las descripciones textuales. Al cerrar las brechas entre las modalidades, las arquitecturas multimodales modernas han mejorado la capacidad de la IA para realizar tareas complejas de razonamiento visual con una precisión casi humana, ilustrando lo mucho que ha progresado la IA multimodal desde sus etapas iniciales.

Link to this sectionExplorando el aprendizaje multimodal en la visión artificial#

Ahora que hemos explorado cómo los modelos multimodales integran diversos flujos de datos, sumerjámonos en cómo se pueden aplicar estas capacidades a los modelos de visión artificial.

Flujo de trabajo del aprendizaje multimodal aplicado a la visión por computador

Fig 3. Flujo de trabajo del aprendizaje multimodal aplicado a la visión artificial.

Al combinar la entrada visual con texto, audio o datos de sensores, el aprendizaje multimodal permite a los sistemas de IA abordar aplicaciones cada vez más sofisticadas y ricas en contexto.

Link to this sectionSubtitulado de imágenes#

El subtitulado de imágenes implica generar descripciones en lenguaje natural para datos visuales. Los métodos tradicionales de detección de objetos identifican objetos individuales, pero el subtitulado multimodal va más allá, interpretando relaciones y contextos.

Por ejemplo, un modelo multimodal puede analizar una imagen de personas en un picnic y generar un subtítulo descriptivo como “Una familia haciendo un picnic en un parque soleado”, proporcionando un resultado más rico y accesible.

Esta aplicación es importante para la accesibilidad. Se puede utilizar para generar texto alternativo para personas con discapacidad visual y etiquetado de contenido para grandes bases de datos. Las arquitecturas Transformer juegan un papel clave aquí, permitiendo que el módulo de generación de texto se centre en áreas visuales relevantes a través de mecanismos de atención, alineando dinámicamente las descripciones textuales con las características visuales.

Link to this sectionRespuesta a preguntas visuales (VQA)#

Los modelos VQA responden a preguntas en lenguaje natural basadas en el contenido visual, combinando la visión artificial con la comprensión del lenguaje. Estas tareas requieren una comprensión detallada del contenido de la imagen, el contexto y el razonamiento semántico.

Las arquitecturas Transformer han mejorado la VQA al permitir que los componentes visuales y de texto del modelo interactúen dinámicamente, identificando regiones exactas de la imagen relacionadas con la pregunta.

El modelo PaLI de Google, por ejemplo, utiliza arquitecturas avanzadas basadas en Transformer que integran transformadores visuales (ViT) con codificadores y decodificadores de lenguaje, permitiendo que preguntas sofisticadas como “¿Qué está haciendo la mujer de la imagen?” o “¿Cuántos animales son visibles?” se respondan con precisión.

Las capas de atención, que ayudan a los modelos a centrarse en las partes más relevantes de una entrada, aseguran que cada palabra de la pregunta se vincule dinámicamente con las señales visuales, permitiendo respuestas matizadas que van más allá de la simple detección de objetos.

Link to this sectionGeneración de texto a imagen#

La generación de texto a imagen se refiere a la capacidad de la IA para crear contenido visual directamente a partir de descripciones textuales, cerrando la brecha entre la comprensión semántica y la creación visual.

Los modelos multimodales que realizan esta tarea utilizan arquitecturas neuronales avanzadas, como Transformers o procesos de difusión, para generar imágenes detalladas y contextualmente precisas.

Por ejemplo, imagina generar datos de entrenamiento sintéticos para modelos de visión artificial encargados de la detección de vehículos. Dada una descripción textual como “un sedán rojo aparcado en una calle concurrida” o “un SUV blanco conduciendo por una autopista”, estos modelos multimodales pueden producir imágenes diversas y de alta calidad que representen estos escenarios precisos.

Tal capacidad permite a los investigadores y desarrolladores expandir eficientemente los datasets de detección de objetos sin capturar manualmente miles de imágenes, reduciendo significativamente el tiempo y los recursos necesarios para la recopilación de datos.

Resultados de un modelo de detección de objetos entrenado con conjuntos de datos sintéticos

Fig 4. Ejemplo de resultados de un modelo de detección de objetos entrenado en datasets sintéticos.

Los métodos más recientes aplican técnicas basadas en difusión, partiendo de ruido visual aleatorio y refinando progresivamente la imagen para alinearla estrechamente con la entrada textual. Este proceso iterativo puede crear ejemplos realistas y variados, asegurando datos de entrenamiento robustos que cubran múltiples puntos de vista, condiciones de iluminación, tipos de vehículos y fondos.

Este enfoque es particularmente valioso en la visión artificial, permitiendo una rápida expansión de datasets, mejorando la precisión del modelo y aumentando la diversidad de escenarios que los sistemas de IA pueden reconocer de manera fiable.

Link to this sectionRecuperación de imagen-texto#

Los sistemas de recuperación multimodal facilitan la búsqueda convirtiendo tanto el texto como las imágenes en un lenguaje común de significado. Por ejemplo, los modelos entrenados en enormes datasets -como CLIP, que aprendió de millones de pares de imagen-texto- pueden hacer coincidir consultas de texto con las imágenes correctas, resultando en resultados de búsqueda más intuitivos y precisos.

Por ejemplo, una consulta de búsqueda como “atardecer en la playa” devuelve resultados visualmente precisos, mejorando significativamente la eficiencia del descubrimiento de contenido en plataformas de comercio electrónico, archivos de medios y bases de datos de fotografía de stock.

El enfoque multimodal asegura la precisión de la recuperación incluso cuando las consultas y las descripciones de las imágenes utilizan idiomas diferentes, gracias a las alineaciones semánticas aprendidas entre los dominios visual y textual.

Link to this sectionPros y contras de los modelos multimodales en la IA#

El aprendizaje multimodal proporciona varias ventajas clave que mejoran las capacidades de la IA en la visión artificial y más allá:

  • Comprensión contextual más rica: Al combinar múltiples flujos de entrada, los modelos multimodales logran una comprensión más profunda y matizada de escenarios complejos del mundo real.
  • Precisión mejorada: La referencia cruzada de múltiples fuentes de datos reduce los errores de reconocimiento y razonamiento, mejorando la fiabilidad general.
  • Mayor robustez: Los sistemas multimodales siguen siendo efectivos incluso si una fuente de datos está comprometida (como malas condiciones de iluminación en entradas visuales o ruido en datos de audio).

A pesar de estas fortalezas, los modelos multimodales también conllevan su propio conjunto de desafíos:

  • Complejidad computacional: Manejar múltiples modalidades simultáneamente requiere recursos computacionales significativos, lo que lleva a mayores demandas de infraestructura.
  • Alineación y sincronización de datos: Alinear con precisión diferentes modalidades, como hacer coincidir las señales de audio con los fotogramas visuales, es técnicamente desafiante pero esencial para un rendimiento óptimo.
  • Implicaciones éticas: Los sistemas multimodales pueden amplificar inadvertidamente los sesgos presentes en los datasets de entrenamiento, destacando la importancia de una cuidadosa curación de datos y una evaluación ética continua.

Link to this sectionConclusiones clave#

El aprendizaje multimodal está remodelando la IA al permitir una comprensión más rica y contextual a través de múltiples flujos de datos. Las aplicaciones en la visión artificial, como el subtitulado de imágenes, la respuesta a preguntas visuales, la generación de texto a imagen y la recuperación mejorada de imágenes, demuestran el potencial de integrar diversas modalidades.

Aunque persisten los desafíos computacionales y éticos, las innovaciones continuas en arquitecturas, como la fusión basada en Transformer y la alineación contrastiva, siguen abordando estas preocupaciones, empujando a la IA multimodal hacia una inteligencia cada vez más humana.

A medida que este campo evoluciona, los modelos multimodales se volverán esenciales para tareas de IA complejas del mundo real, mejorando todo, desde diagnósticos sanitarios hasta robótica autónoma. Adoptar el aprendizaje multimodal posiciona a las industrias para aprovechar capacidades potentes que darán forma al futuro de la IA.

¡Únete a nuestra creciente comunidad! Explora nuestro repositorio en GitHub para aprender más sobre IA. ¿Listo para comenzar tus propios proyectos de visión artificial? Consulta nuestras opciones de licencia. ¡Descubre la IA en la fabricación y la IA de visión en la conducción autónoma visitando nuestras páginas de soluciones!

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático