Explore a Modelagem Autoregressiva Visual (VAR). Descubra como a previsão de escala seguinte melhora a velocidade e a qualidade da geração de imagens em comparação com os métodos tradicionais e a difusão.
A Modelagem Autoregressiva Visual (VAR) é um paradigma avançado de visão computacional que adapta as estratégias de aprendizagem autoregressiva popularizadas pelos Grandes Modelos de Linguagem (LLMs) às tarefas de geração de imagens. Os métodos autorregressivos visuais tradicionais codificam uma imagem numa sequência 1D e prevêem-na token a token numa ordem de varredura raster, o que é computacionalmente dispendioso e ignora a estrutura 2D natural dos dados visuais. Em contrapartida, o VAR introduz uma abordagem de «previsão na escala seguinte» de grosseiro para fino. Gera imagens através da previsão progressiva de mapas de características ou escalas de maior resolução, em vez de prever tokens individuais linha a linha. Esta metodologia preserva a integridade estrutural, melhorando significativamente tanto a qualidade da imagem como a velocidade de inferência.
Na sua essência, o VAR substitui a previsão tradicional do próximo token pela previsão da próxima escala. Uma imagem é primeiro comprimida em mapas de tokens discretos multiescala, utilizando uma arquitetura semelhante a um AutoEncodador Variacional com Quantização Vetorial (VQ-VAE). Durante a fase de geração, um modelo transformador prevê estes mapas de tokens sequencialmente, começando pela resolução mais baixa (como uma grelha 1x1) até à resolução alvo (como uma grelha 16x16 ou 32x32). Como processa estruturas espaciais simultaneamente em cada escala, o VAR preserva com sucesso as correlações bidirecionais inerentes às imagens 2D.
Esta nova abordagem permite que os modelos VAR estabeleçam leis de escalabilidade previsíveis comparáveis às arquiteturas baseadas em texto, como o OpenAI GPT-4. À medida que os investigadores aumentam os parâmetros do modelo, o desempenho melhora de forma consistente. De acordo com o artigo da NeurIPS 2024 sobre Modelagem Autoregressiva Visual, o VAR supera com sucesso as arquiteturas concorrentes no exigente ImageNet . Ele alcança melhores métricas tanto na Frechet Inception Distance (FID) como nas pontuações de inception, ao mesmo tempo que executa muito mais rapidamente.
É importante diferenciar o VAR da IA generativa baseada em difusão. Os modelos de difusão aprendem a gerar imagens através da remoção iterativa de ruído contínuo de uma tela inicial. O VAR, no entanto, opera com tokens discretos. Em vez de remover ruído, constrói a imagem de forma autorregressiva, resolução a resolução. Enquanto o Diffusion Transformer (DiT) tem sido um padrão de referência para a síntese visual, a abordagem baseada em tokens do VAR beneficia diretamente da investigação em otimização dedicada aos modelos transformadores, permitindo-lhe superar o DiT tanto em escalabilidade como em eficiência de dados.
Ao combinar as capacidades de raciocínio dos LLMs com a visão de alta fidelidade, a Modelagem Autoregressiva Visual oferece várias funcionalidades práticas:
Embora os modelos VAR se concentrem na geração de conteúdo, podem ser combinados com modelos de perceção avançados, como Ultralytics , para criar fluxos de trabalho multimodais abrangentes. Por exemplo, pode utilizar o YOLO26 para a deteção precisa de objetos, a fim de isolar os sujeitos, e depois enviar essas regiões específicas para um modelo autorregressivo para aprimoramento ou reestilização.
Segue-se um esboço conceptual PyTorch que demonstra como um ciclo autorregressivo multiescala prevê iterativamente a próxima escala de um mapa de tokens, simulando a lógica subjacente do VAR utilizando módulos padrão PyTorch :
import torch
import torch.nn as nn
# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
def __init__(self):
super().__init__()
# Simulated transformer to predict next resolution token map
self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)
def forward(self, initial_scale_token):
current_tokens = initial_scale_token
# Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
for scale in [1, 2, 4]:
# Model predicts the structural layout for the higher resolution
next_scale_tokens = self.transformer(current_tokens)
# Expand and update tokens for the next iteration
current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
return current_tokens
model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256) # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")
Para os investigadores que pretendem criar pipelines de visão de ponta a ponta — desde a seleção de conjuntos de dados até à avaliação de arquiteturas complexas —, a Ultralytics oferece ferramentas robustas para anotação automática, rastreamento e implementação na nuvem. Quer se trate de otimizar um Modelo de Linguagem de Visão (VLM) ou de experimentar previsões de nova dimensão, os ecossistemas unificados de inteligência visual aceleram a inovação em casos de utilização do mundo real.
Comece sua jornada com o futuro do aprendizado de máquina