Glosario

Modelo multimodal

Descubra cómo los modelos multimodales de IA integran texto, imágenes y mucho más para crear sistemas robustos y versátiles para aplicaciones del mundo real.

Los modelos multimodales representan un avance significativo en inteligencia artificial (IA) al procesar e integrar información procedente de múltiples tipos de fuentes de datos, conocidas como modalidades. A diferencia de los modelos tradicionales, que se centran únicamente en imágenes o texto, los sistemas multimodales combinan entradas como texto, imágenes, audio, vídeo y datos de sensores para lograr una comprensión más holística y humana de escenarios complejos. Esta integración les permite captar relaciones intrincadas y contextos que los modelos de una sola modalidad podrían pasar por alto, lo que da lugar a aplicaciones de IA más robustas y versátiles, que se exploran más a fondo en recursos como el blog Ultralytics.

Definición

Un modelo multimodal es un sistema de IA diseñado y entrenado para procesar, comprender y relacionar simultáneamente información procedente de dos o más modalidades de datos distintas. Las modalidades más comunes son la visual (imágenes, vídeo), la auditiva (voz, sonidos), la textual(procesamiento del lenguaje natural - PLN) y otros datos de sensores (como LiDAR o lecturas de temperatura). La idea central es la fusión de la información: combinar los puntos fuertes de los distintos tipos de datos para lograr una comprensión más profunda. Por ejemplo, la comprensión completa de un vídeo implica procesar los fotogramas visuales, el diálogo hablado (audio) y, potencialmente, los subtítulos de texto. Al aprender las correlaciones y dependencias entre estas modalidades durante el proceso de aprendizaje automático, a menudo mediante técnicas de aprendizaje profundo, estos modelos desarrollan una comprensión más rica y matizada de lo que sería posible analizando cada modalidad de forma aislada.

Pertinencia y aplicaciones

La importancia de los modelos multimodales está creciendo rápidamente porque la información del mundo real es intrínsecamente polifacética. Los humanos percibimos el mundo de forma natural utilizando múltiples sentidos; dotar a la IA de capacidades similares permite crear aplicaciones más sofisticadas y conscientes del contexto. Estos modelos son cruciales cuando la comprensión depende de la integración de diversos flujos de datos, lo que mejora la precisión en tareas complejas.

He aquí algunos ejemplos concretos de su aplicación:

Conceptos clave y distinciones

Comprender los modelos multimodales implica familiarizarse con conceptos afines:

  • Aprendizaje multimodal: Es el subcampo del ML centrado en el desarrollo de los algoritmos y técnicas utilizados para entrenar modelos multimodales. Aborda retos como la alineación de datos y las estrategias de fusión, a menudo debatidos en artículos académicos.
  • Modelos de cimentación: Muchos modelos de base modernos, como GPT-4, son intrínsecamente multimodales, capaces de procesar tanto texto como imágenes. Estos grandes modelos sirven de base que puede afinarse para tareas específicas.
  • Grandes modelos lingüísticos (LLM): Aunque están relacionados, los LLM se centran tradicionalmente en el tratamiento de textos. Los modelos multimodales son más amplios y están diseñados explícitamente para manejar e integrar información procedente de distintos tipos de datos, además del lenguaje. Sin embargo, algunos LLM avanzados han desarrollado capacidades multimodales.
  • Modelos de visión especializados: Los modelos multimodales difieren de los modelos especializados de visión por ordenador (CV) como Ultralytics YOLO. Mientras que un modelo multimodal como GPT-4 puede describir una imagen ("Hay un gato sentado en una alfombra"), un modelo YOLO destaca en la detección de objetos o la segmentación de instancias, localizando con precisión el gato con un cuadro delimitador o una máscara de píxeles. Estos modelos pueden ser complementarios; YOLO identifica dónde están los objetos, mientras que un modelo multimodal puede interpretar la escena o responder a preguntas sobre ella. Eche un vistazo a las comparaciones entre distintos modelos YOLO.
  • Arquitectura de transformadores: La arquitectura de transformadores, introducida en "Attention Is All You Need", es fundamental para muchos modelos multimodales de éxito, ya que permite procesar e integrar eficazmente diferentes secuencias de datos mediante mecanismos de atención.

El desarrollo y despliegue de estos modelos a menudo implica marcos como PyTorch y TensorFlow, y plataformas como Ultralytics HUB pueden ayudar a gestionar conjuntos de datos y flujos de trabajo de entrenamiento de modelos, aunque HUB actualmente se centra más en tareas específicas de visión. La capacidad de unir diferentes tipos de datos convierte a los modelos multimodales en un paso hacia una IA más completa, que podría contribuir a la futura Inteligencia Artificial General (AGI).

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles