Glosario

Aprendizaje multimodal

Descubra el poder del aprendizaje multimodal en la IA. Explore cómo los modelos integran diversos tipos de datos para resolver problemas del mundo real con mayor riqueza.

El aprendizaje multimodal es un subcampo de la Inteligencia Artificial (IA) y el Aprendizaje Automático (AM ) centrado en el diseño y el entrenamiento de modelos capaces de procesar e integrar información procedente de múltiples tipos de datos distintos, conocidos como modalidades. Entre las modalidades más comunes se encuentran el texto, las imágenes(visión por ordenador (CV)), el audio(reconocimiento de voz), el vídeo y los datos de sensores (como LiDAR o lecturas de temperatura). El objetivo principal del aprendizaje multimodal es crear sistemas de inteligencia artificial capaces de comprender situaciones complejas de forma más holística, similar a la humana, aprovechando la información complementaria presente en distintas fuentes de datos.

Definición y conceptos básicos

El aprendizaje multimodal implica el entrenamiento de algoritmos para comprender las relaciones y correlaciones entre distintos tipos de datos. En lugar de analizar cada modalidad de forma aislada, el proceso de aprendizaje se centra en técnicas para combinar o fusionar la información de forma eficaz. Entre los conceptos clave se incluyen:

  • Fusión de información: Se refiere a los métodos utilizados para combinar información procedente de distintas modalidades. La fusión puede producirse en varias fases: temprana (combinando datos brutos), intermedia (combinando características extraídas de cada modalidad) o tardía (combinando los resultados de modelos separados entrenados en cada modalidad). La fusión eficaz de la información es crucial para aprovechar los puntos fuertes de cada tipo de datos.
  • Aprendizaje intermodal: Consiste en aprender representaciones en las que la información de una modalidad puede utilizarse para inferir o recuperar información de otra (por ejemplo, generar pies de texto a partir de imágenes).
  • Alineación de datos: Garantizar que las piezas de información correspondientes en distintas modalidades coincidan correctamente (por ejemplo, alinear las palabras habladas en una pista de audio con los fotogramas visuales correspondientes en un vídeo). La alineación correcta de los datos suele ser un requisito previo para una fusión eficaz.

El aprendizaje multimodal se basa en gran medida en técnicas de aprendizaje profundo (Deep Learning, DL), utilizando arquitecturas como transformadores y redes neuronales convolucionales (Convolutional Neural Networks, CNN) adaptadas para manejar diversas entradas, a menudo utilizando marcos como PyTorch(sitio oficial de PyTorch) o TensorFlow(sitio oficial de TensorFlow).

Pertinencia y aplicaciones

La relevancia del aprendizaje multimodal radica en su capacidad para crear sistemas de IA más robustos y versátiles, capaces de abordar problemas complejos del mundo real en los que la información es intrínsecamente polifacética. En la actualidad, muchos modelos avanzados de IA, incluidos los grandes Foundation Models, aprovechan las capacidades multimodales.

He aquí un par de ejemplos concretos de cómo se aplica el aprendizaje multimodal:

Otras aplicaciones significativas incluyen la conducción autónoma(IA en coches autoconducidos), donde los datos de cámaras, LiDAR y radar son combinados por empresas como Waymo, el Análisis de Imágenes Médicas que combina datos de imágenes con registros de pacientes, y aplicaciones de IA en robótica, donde los robots integran información visual, auditiva y táctil para interactuar con su entorno(Robótica).

Distinciones clave

Es útil distinguir el aprendizaje multimodal de los términos relacionados:

  • Modelos multimodales: El aprendizaje multimodal es el proceso o campo de estudio que se ocupa del entrenamiento de la IA utilizando múltiples tipos de datos. Los modelos multimodales son los sistemas o arquitecturas de IA resultantes diseñados y entrenados mediante estas técnicas.
  • Visión por ordenador (CV): La CV se centra exclusivamente en el procesamiento y la comprensión de datos visuales (imágenes, vídeos). El aprendizaje multimodal va más allá de la CV al integrar datos visuales con otras modalidades como texto o audio.
  • Procesamiento del Lenguaje Natural (PLN): El PLN se ocupa de comprender y generar el lenguaje humano (texto, voz). El aprendizaje multimodal integra datos lingüísticos con otras modalidades, como imágenes o lecturas de sensores.
  • Modelos básicos: Se trata de modelos a gran escala preentrenados con grandes cantidades de datos, a menudo diseñados para adaptarse a diversas tareas posteriores. Muchos modelos básicos modernos, como GPT-4, incorporan capacidades multimodales, pero los conceptos son distintos; el aprendizaje multimodal es una metodología empleada a menudo en la construcción de estos potentes modelos.

Retos y perspectivas

El aprendizaje multimodal plantea retos únicos, como alinear eficazmente datos de distintas fuentes, desarrollar estrategias de fusión óptimas y gestionar datos ausentes o con ruido en una o varias modalidades. Abordar estos retos en el aprendizaje multimodal sigue siendo un área activa de investigación.

Este campo está evolucionando rápidamente, empujando los límites hacia sistemas de IA que perciben y razonan sobre el mundo más como lo hacen los humanos, contribuyendo potencialmente al desarrollo de la Inteligencia General Artificial (AGI). Aunque plataformas como Ultralytics HUB facilitan actualmente flujos de trabajo centrados principalmente en tareas de visión por ordenador utilizando modelos como Ultralytics YOLO (por ejemplo, Ultralytics YOLOv8) para la detección de objetos, el panorama más amplio de la IA apunta hacia una integración cada vez mayor de capacidades multimodales. No pierda de vista el blog de Ul tralytics para estar al día de las nuevas capacidades y aplicaciones de los modelos. Para una visión más amplia del campo, la página de Wikipedia sobre Aprendizaje Multimodal ofrece lecturas adicionales.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles