Descubra cómo los modelos multimodales integran texto, imágenes y audio. Conozca arquitecturas como Ultralytics e implemente la IA visual en la Ultralytics .
Un modelo multimodal es un tipo avanzado de sistema de inteligencia artificial (IA) capaz de procesar, interpretar e integrar información de múltiples tipos de datos diferentes, o «modalidades», simultáneamente. Mientras que los sistemas unimodales tradicionales se especializan en un único dominio, como el procesamiento del lenguaje natural (NLP) para texto o la visión artificial (CV) para imágenes—, los modelos multimodales pretenden imitar la percepción humana sintetizando señales visuales, auditivas y lingüísticas juntas. Esta convergencia permite al modelo desarrollar una comprensión integral del mundo, lo que le permite establecer correlación complejas entre una escena visual y una descripción hablada. Estas capacidades se consideran pasos fundamentales para lograr la inteligencia artificial general (AGI).
La eficacia de un modelo multimodal depende de su capacidad para mapear diversos tipos de datos en un espacio semántico compartido. Este proceso suele comenzar con la creación de incrustaciones, que son representaciones numéricas que capturan el significado esencial de los datos de entrada. Al entrenarse en conjuntos de datos masivos de ejemplos emparejados, como vídeos con subtítulos, el modelo aprende a alinear la representación vectorial de una imagen de «gato» con la incrustación de texto de la palabra «gato».
Varios conceptos arquitectónicos clave hacen posible esta integración:
Los modelos multimodales han desbloqueado capacidades que antes eran imposibles de alcanzar para los sistemas de modalidad única.
El siguiente ejemplo muestra cómo utilizar la función ultralytics biblioteca para realizar la detección de vocabulario abierto,
donde el modelo interpreta las indicaciones de texto para identificar objetos en una imagen:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
Es útil diferenciar el «modelo multimodal» de conceptos relacionados en el glosario de IA:
El campo está avanzando rápidamente hacia sistemas que pueden procesar flujos continuos de audio, vídeo y texto en tiempo real. La investigación de organizaciones como Google sigue ampliando los límites de la percepción artificial. En Ultralytics, apoyamos este ecosistema con backbones de visión de alto rendimiento como YOLO26. Lanzado en 2026, YOLO26 ofrece una velocidad y precisión superiores para tareas como la segmentación de instancias, lo que lo convierte en un componente visual eficiente en grandes pipelines multimodales. Los desarrolladores pueden gestionar los datos, el entrenamiento y la implementación de estos complejos flujos de trabajo utilizando la Ultralytics unificada Ultralytics .