Descubre el modelado autorregresivo visual (VAR). Descubre cómo la predicción de escala superior mejora la velocidad y la calidad de la generación de imágenes en comparación con los métodos tradicionales y la difusión.
El modelado autorregresivo visual (VAR) es un paradigma avanzado de visión artificial que adapta las estrategias de aprendizaje autorregresivo popularizadas por los grandes modelos de lenguaje (LLM) a las tareas de generación de imágenes. Los métodos autorregresivos visuales tradicionales codifican una imagen en una secuencia unidimensional y la predicen token a token en un orden de barrido rasterizado, lo cual es computacionalmente costoso e ignora la estructura bidimensional natural de los datos visuales. Por el contrario, el VAR introduce un enfoque de «predicción de la siguiente escala» de lo general a lo específico. Genera imágenes prediciendo progresivamente mapas de características o escalas de mayor resolución, en lugar de predecir tokens individuales fila por fila. Esta metodología preserva la integridad estructural al tiempo que mejora significativamente tanto la calidad de la imagen como la velocidad de inferencia.
En esencia, VAR sustituye la predicción tradicional del siguiente token por la predicción de la siguiente escala. En primer lugar, la imagen se comprime en mapas de tokens discretos multiescala utilizando una arquitectura similar a la de un autocodificador variacional con cuantificación vectorial (VQ-VAE). Durante la fase de generación, un modelo transformador predice estos mapas de tokens de forma secuencial, comenzando por la resolución más pequeña (como una cuadrícula de 1x1) hasta la resolución objetivo (como una cuadrícula de 16x16 o 32x32). Dado que procesa las estructuras espaciales simultáneamente en cada escala, VAR conserva con éxito las correlaciones bidireccionales inherentes a las imágenes 2D.
Este novedoso enfoque permite a los modelos VAR establecer leyes de escalabilidad predecibles comparables a las de arquitecturas basadas en texto como OpenAI GPT-4. A medida que los investigadores aumentan los parámetros del modelo, el rendimiento mejora de forma constante. Según el artículo de NeurIPS 2024 sobre modelado autorregresivo visual, VAR supera con éxito a las arquitecturas competidoras en el exigente ImageNet . Consigue mejores métricas tanto en la distancia de inicio de Frechet (FID) como en las puntuaciones de inicio, al tiempo que se ejecuta mucho más rápido.
Es importante diferenciar el VAR de la IA generativa basada en la difusión. Los modelos de difusión aprenden a generar imágenes mediante la eliminación iterativa del ruido continuo de un lienzo inicial. VAR, sin embargo, opera con tokens discretos. En lugar de eliminar el ruido, construye la imagen de forma autorregresiva resolución por resolución. Si bien el Diffusion Transformer (DiT) ha sido un estándar líder para la síntesis visual, el enfoque basado en tokens de VAR se beneficia directamente de la investigación en optimización dedicada a los modelos transformadores, lo que le permite superar a DiT tanto en escalabilidad como en eficiencia de datos.
Al combinar las capacidades de razonamiento de los modelos de lenguaje grande (LLM) con la visión de alta fidelidad, el modelado autorregresivo visual ofrece varias capacidades prácticas:
Aunque los modelos VAR se centran en la generación de contenido, pueden combinarse con potentes modelos de percepción como Ultralytics para crear flujos de trabajo multimodales integrales. Por ejemplo, puedes utilizar YOLO26 para la detección precisa de objetos con el fin de aislar sujetos y, a continuación, enviar esas regiones específicas a un modelo autorregresivo para su mejora o rediseño.
A continuación se muestra un esquema conceptual PyTorch que muestra cómo un bucle autorregresivo multiescala predice de forma iterativa la siguiente escala de un mapa de tokens, simulando la lógica subyacente de VAR utilizando módulos estándar PyTorch :
import torch
import torch.nn as nn
# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
def __init__(self):
super().__init__()
# Simulated transformer to predict next resolution token map
self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)
def forward(self, initial_scale_token):
current_tokens = initial_scale_token
# Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
for scale in [1, 2, 4]:
# Model predicts the structural layout for the higher resolution
next_scale_tokens = self.transformer(current_tokens)
# Expand and update tokens for the next iteration
current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
return current_tokens
model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256) # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")
Para los investigadores que desean crear flujos de trabajo de visión de extremo a extremo —desde la selección de conjuntos de datos hasta la evaluación de arquitecturas complejas— la Ultralytics ofrece herramientas sólidas para la anotación automática, el seguimiento y la implementación en la nube. Ya sea para optimizar un modelo de lenguaje visual (VLM) o para experimentar con predicciones a gran escala, los ecosistemas unificados de inteligencia visual aceleran la innovación en casos de uso del mundo real.
Comience su viaje con el futuro del aprendizaje automático