Glosario

Modelización autorregresiva visual (VAR)

Descubre el modelado autorregresivo visual (VAR). Descubre cómo la predicción de escala superior mejora la velocidad y la calidad de la generación de imágenes en comparación con los métodos tradicionales y la difusión.

El modelado autorregresivo visual (VAR) es un paradigma avanzado de visión artificial que adapta las estrategias de aprendizaje autorregresivo popularizadas por los grandes modelos de lenguaje (LLM) a las tareas de generación de imágenes. Los métodos autorregresivos visuales tradicionales codifican una imagen en una secuencia unidimensional y la predicen token a token en un orden de barrido rasterizado, lo cual es computacionalmente costoso e ignora la estructura bidimensional natural de los datos visuales. Por el contrario, el VAR introduce un enfoque de «predicción de la siguiente escala» de lo general a lo específico. Genera imágenes prediciendo progresivamente mapas de características o escalas de mayor resolución, en lugar de predecir tokens individuales fila por fila. Esta metodología preserva la integridad estructural al tiempo que mejora significativamente tanto la calidad de la imagen como la velocidad de inferencia.

Cómo funciona el modelado autorregresivo visual

En esencia, VAR sustituye la predicción tradicional del siguiente token por la predicción de la siguiente escala. En primer lugar, la imagen se comprime en mapas de tokens discretos multiescala utilizando una arquitectura similar a la de un autocodificador variacional con cuantificación vectorial (VQ-VAE). Durante la fase de generación, un modelo transformador predice estos mapas de tokens de forma secuencial, comenzando por la resolución más pequeña (como una cuadrícula de 1x1) hasta la resolución objetivo (como una cuadrícula de 16x16 o 32x32). Dado que procesa las estructuras espaciales simultáneamente en cada escala, VAR conserva con éxito las correlaciones bidireccionales inherentes a las imágenes 2D.

Este novedoso enfoque permite a los modelos VAR establecer leyes de escalabilidad predecibles comparables a las de arquitecturas basadas en texto como OpenAI GPT-4. A medida que los investigadores aumentan los parámetros del modelo, el rendimiento mejora de forma constante. Según el artículo de NeurIPS 2024 sobre modelado autorregresivo visual, VAR supera con éxito a las arquitecturas competidoras en el exigente ImageNet . Consigue mejores métricas tanto en la distancia de inicio de Frechet (FID) como en las puntuaciones de inicio, al tiempo que se ejecuta mucho más rápido.

VAR frente a modelos de difusión

Es importante diferenciar el VAR de la IA generativa basada en la difusión. Los modelos de difusión aprenden a generar imágenes mediante la eliminación iterativa del ruido continuo de un lienzo inicial. VAR, sin embargo, opera con tokens discretos. En lugar de eliminar el ruido, construye la imagen de forma autorregresiva resolución por resolución. Si bien el Diffusion Transformer (DiT) ha sido un estándar líder para la síntesis visual, el enfoque basado en tokens de VAR se beneficia directamente de la investigación en optimización dedicada a los modelos transformadores, lo que le permite superar a DiT tanto en escalabilidad como en eficiencia de datos.

Aplicaciones en el mundo real

Al combinar las capacidades de razonamiento de los modelos de lenguaje grande (LLM) con la visión de alta fidelidad, el modelado autorregresivo visual ofrece varias capacidades prácticas:

Edición de imágenes y relleno sin entrenamiento previo: VAR admite de forma nativa la manipulación sin entrenamiento previo. Al enmascarar determinadas escalas o regiones, los desarrolladores pueden editar o ampliar imágenes sin problemas, sin necesidad de volver a entrenar ni ajustar la arquitectura base.
Generación escalable de recursos para el comercio minorista: la extraordinaria velocidad de inferencia de VAR permite la síntesis de imágenes en tiempo real y de alta calidad, lo que facilita la generación dinámica de fondos para productos y la creación a gran escala de recursos de marketing personalizados.

Implementación de flujos de trabajo autorregresivos

Aunque los modelos VAR se centran en la generación de contenido, pueden combinarse con potentes modelos de percepción como Ultralytics para crear flujos de trabajo multimodales integrales. Por ejemplo, puedes utilizar YOLO26 para la detección precisa de objetos con el fin de aislar sujetos y, a continuación, enviar esas regiones específicas a un modelo autorregresivo para su mejora o rediseño.

A continuación se muestra un esquema conceptual PyTorch que muestra cómo un bucle autorregresivo multiescala predice de forma iterativa la siguiente escala de un mapa de tokens, simulando la lógica subyacente de VAR utilizando módulos estándar PyTorch :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Para los investigadores que desean crear flujos de trabajo de visión de extremo a extremo —desde la selección de conjuntos de datos hasta la evaluación de arquitecturas complejas— la Ultralytics ofrece herramientas sólidas para la anotación automática, el seguimiento y la implementación en la nube. Ya sea para optimizar un modelo de lenguaje visual (VLM) o para experimentar con predicciones a gran escala, los ecosistemas unificados de inteligencia visual aceleran la innovación en casos de uso del mundo real.

Modelización autorregresiva visual (VAR)

Exporta a más de 17 formatos. Implementa en 43 regiones de todo el mundo.

Entrena YOLO26 en GPU H100 por 2,39 $/hora.

Licencias empresariales flexibles para impulsar tus proyectos de IA aplicada a la visión.

Licencias para empresas diseñadas para impulsar tu próximo proyecto

Etiqueta hasta 10 veces más rápido con la anotación inteligente

Anotar. Entrenar. Implementar. Todo en una sola plataforma.

Cómo funciona el modelado autorregresivo visual

VAR frente a modelos de difusión

Aplicaciones en el mundo real

Implementación de flujos de trabajo autorregresivos

Leer más en esta categoría

Encuentro de la comunidad Ultralyticsen China: el país que despierta mayor interés a nivel mundial en el aprendizaje automático.

Ultralytics el AMD Dev Day de Shanghái: la IA local se une a los sistemas agenticos

Aspectos más destacados de Ultralytics la Embedded Vision Summit 2026

¡Construyamos juntos el futuro de la IA!

Modelización autorregresiva visual (VAR)

Exporta a más de 17 formatos. Implementa en 43 regiones de todo el mundo.

Entrena YOLO26 en GPU H100 por 2,39 $/hora.

Licencias empresariales flexibles para impulsar tus proyectos de IA aplicada a la visión.

Licencias para empresas diseñadas para impulsar tu próximo proyecto

Etiqueta hasta 10 veces más rápido con la anotación inteligente

Anotar. Entrenar. Implementar. Todo en una sola plataforma.

Cómo funciona el modelado autorregresivo visual

VAR frente a modelos de difusión

Aplicaciones en el mundo real

Implementación de flujos de trabajo autorregresivos

Leer más en esta categoría

Encuentro de la comunidad Ultralyticsen China: el país que despierta mayor interés a nivel mundial en el aprendizaje automático.

Ultralytics el AMD Dev Day de Shanghái: la IA local se une a los sistemas agenticos

Aspectos más destacados de Ultralytics la Embedded Vision Summit 2026

¡Construyamos juntos el futuro de la IA!

Anotar. Entrenar. Implementar. Todo en una sola plataforma.