Explora los modelos de lenguaje visual (VLM) con Ultralytics. Descubre cómo conectan la visión artificial y los LLM para la detección de vocabulario abierto y VQA utilizando Ultralytics .
Un modelo de lenguaje visual (VLM) es un tipo de inteligencia artificial que puede procesar e interpretar tanto información visual (imágenes o vídeo) como textual de forma simultánea. A diferencia de los modelos tradicionales de visión por ordenador, que se centran únicamente en datos de píxeles, o de los modelos de lenguaje grandes (LLM), que solo entienden texto, los VLM salvan la brecha entre estas dos modalidades. Al entrenarse con conjuntos de datos masivos que contienen pares de imágenes y texto, estos modelos aprenden a asociar características visuales con conceptos lingüísticos, lo que les permite describir imágenes, responder preguntas sobre escenas visuales e incluso ejecutar comandos basados en lo que «ven».
En esencia, los VLM suelen constar de dos componentes principales: un codificador de visión y un codificador de texto. El codificador de visión procesa las imágenes para extraer mapas de características y representaciones visuales , mientras que el codificador de texto se encarga de la entrada lingüística. A continuación, estas distintas corrientes de datos se fusionan mediante mecanismos como la atención cruzada para alinear la información visual y textual en un espacio de incrustación compartido.
Los avances recientes en 2024 y 2025 han avanzado hacia arquitecturas más unificadas en las que una única red troncal de transformadores gestiona ambas modalidades. Por ejemplo, modelos como Google 2 demuestran cómo la integración eficaz de estas corrientes puede mejorar el rendimiento en tareas de razonamiento complejo. Esta alineación permite al modelo comprender el contexto, como reconocer que la palabra «manzana» se refiere a una fruta en la imagen de una tienda de comestibles, pero a una empresa tecnológica en un logotipo.
La capacidad de comprender el mundo a través de la vista y el lenguaje abre diversas aplicaciones en varias industrias:
Es útil distinguir los VLM de otras categorías de IA para comprender su función específica:
Los VLM modernos permiten la detección de «vocabulario abierto», en la que se pueden detect utilizando indicaciones de texto de formato libre en lugar de clases predefinidas. Esta es una característica clave de modelos como Ultralytics YOLO, que permite definiciones de clases dinámicas sin necesidad de volver a entrenar.
El siguiente ejemplo muestra cómo utilizar la función ultralytics paquete para detect
descritos por texto:
from ultralytics import YOLOWorld
# Load a model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing sunglasses", "red backpack"])
# Run inference to find these text-defined objects in an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the detection results
results[0].show()
Aunque son potentes, los modelos de lenguaje visual se enfrentan a retos importantes. Uno de los principales problemas es la alucinación, en la que el modelo describe con seguridad objetos o texto en una imagen que simplemente no están ahí. Los investigadores están trabajando activamente en técnicas como el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) para mejorar la base y la precisión.
Otro reto es el coste computacional. El entrenamiento de estos modelos masivos requiere importantes GPU . Sin embargo, el lanzamiento de arquitecturas eficientes como Ultralytics está ayudando a llevar capacidades de visión avanzadas a los dispositivos periféricos. A medida que avancemos, esperamos que los VLM desempeñen un papel crucial en los agentes robóticos, permitiendo a los robots navegar y manipular objetos basándose en instrucciones verbales complejas.
Para aquellos interesados en los fundamentos teóricos, el artículo original CLIP de OpenAI ofrece una excelente perspectiva sobre el preentrenamiento contrastivo de lenguaje e imagen. Además, mantenerse al día con los artículos de la conferencia CVPR es esencial para seguir la rápida evolución de estas arquitecturas. Para experimentar con el entrenamiento de sus propios modelos de visión, puede utilizar Ultralytics para una gestión optimizada de los conjuntos de datos y la implementación de modelos .