Descubra cómo los modelos de IA multimodal integran texto, imágenes y más para crear sistemas robustos y versátiles para aplicaciones del mundo real.
Un modelo multimodal es un sistema sistema de inteligencia artificial (IA) capaz de procesar, interpretar e integrar información procedente de múltiples tipos de datos o "simultáneamente. A diferencia de los sistemas unimodales tradicionales que se especializan en un único dominio -como el Procesamiento del Lenguaje Natural (PLN) para el texto o la visión por ordenador (CV) imágenes, los modelos multimodales pueden analizar conjuntamente texto, imágenes, audio, vídeo y datos de sensores. Esta convergencia permite Esta convergencia permite al modelo desarrollar una comprensión del mundo más completa y humana, ya que puede establecer correlaciones entre las señales visuales y las descripciones lingüísticas. Esta capacidad es fundamental para el desarrollo de la futura Inteligencia Artificial General (IAG) y actualmente impulsa la innovación en campos que van desde la robótica a la creación automatizada de contenidos.
La eficacia de los modelos multimodales se basa en su capacidad para asignar distintos tipos de datos a un espacio semántico común. compartido. Este proceso suele comenzar con la generación de representaciones numéricasde los datos que que captan su significado esencial. Mediante el entrenamiento con conjuntos de datos masivos de ejemplos emparejados, como imágenes con pies de foto, el modelo aprende a alinear las incrustaciones de los datos con el espacio semántico. de la imagen de un "perro" con el texto de la palabra "perro". "perro".
Las principales innovaciones arquitectónicas hacen posible esta integración:
Los modelos multimodales han desbloqueado nuevas capacidades que antes eran imposibles con los sistemas monomodales.
El siguiente ejemplo muestra cómo utilizar la función ultralytics para la detección de vocabulario abierto
en la que el modelo detecta objetos basándose en entradas de texto personalizadas:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language tasks
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference to detect these specific visual concepts
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Es importante diferenciar el "modelo multimodal" de los conceptos relacionados en el glosario de IA:
Este campo avanza rápidamente hacia modelos capaces de procesar flujos continuos de audio, vídeo y texto en tiempo real. en tiempo real. La investigación de organizaciones como Google DeepMind sigue ampliando los límites de lo que estos sistemas pueden percibir. En Ultralytics, mientras que nuestro buque insignia YOLO11 establecen el estándar de velocidad y precisión en la detección de objetos, también estamos innovando arquitecturas como YOLO26, que mejorarán aún más la eficiencia de las aplicaciones tanto en el borde como en la nube. De cara al futuro, la plataforma integral Ultralytics Platform proporcionará un entorno unificado para gestionar los datos la formación y el despliegue de estos flujos de trabajo de IA cada vez más complejos.