Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Modelação Autoregressiva Visual (VAR)

Explore a Modelagem Autoregressiva Visual (VAR). Descubra como a previsão de escala seguinte melhora a velocidade e a qualidade da geração de imagens em comparação com os métodos tradicionais e a difusão.

A Modelagem Autoregressiva Visual (VAR) é um paradigma avançado de visão computacional que adapta as estratégias de aprendizagem autoregressiva popularizadas pelos Grandes Modelos de Linguagem (LLMs) às tarefas de geração de imagens. Os métodos autorregressivos visuais tradicionais codificam uma imagem numa sequência 1D e prevêem-na token a token numa ordem de varredura raster, o que é computacionalmente dispendioso e ignora a estrutura 2D natural dos dados visuais. Em contrapartida, o VAR introduz uma abordagem de «previsão na escala seguinte» de grosseiro para fino. Gera imagens através da previsão progressiva de mapas de características ou escalas de maior resolução, em vez de prever tokens individuais linha a linha. Esta metodologia preserva a integridade estrutural, melhorando significativamente tanto a qualidade da imagem como a velocidade de inferência.

Como funciona a modelação autorregressiva visual

Na sua essência, o VAR substitui a previsão tradicional do próximo token pela previsão da próxima escala. Uma imagem é primeiro comprimida em mapas de tokens discretos multiescala, utilizando uma arquitetura semelhante a um AutoEncodador Variacional com Quantização Vetorial (VQ-VAE). Durante a fase de geração, um modelo transformador prevê estes mapas de tokens sequencialmente, começando pela resolução mais baixa (como uma grelha 1x1) até à resolução alvo (como uma grelha 16x16 ou 32x32). Como processa estruturas espaciais simultaneamente em cada escala, o VAR preserva com sucesso as correlações bidirecionais inerentes às imagens 2D.

Esta nova abordagem permite que os modelos VAR estabeleçam leis de escalabilidade previsíveis comparáveis às arquiteturas baseadas em texto, como o OpenAI GPT-4. À medida que os investigadores aumentam os parâmetros do modelo, o desempenho melhora de forma consistente. De acordo com o artigo da NeurIPS 2024 sobre Modelagem Autoregressiva Visual, o VAR supera com sucesso as arquiteturas concorrentes no exigente ImageNet . Ele alcança melhores métricas tanto na Frechet Inception Distance (FID) como nas pontuações de inception, ao mesmo tempo que executa muito mais rapidamente.

VAR vs. Modelos de difusão

É importante diferenciar o VAR da IA generativa baseada em difusão. Os modelos de difusão aprendem a gerar imagens através da remoção iterativa de ruído contínuo de uma tela inicial. O VAR, no entanto, opera com tokens discretos. Em vez de remover ruído, constrói a imagem de forma autorregressiva, resolução a resolução. Enquanto o Diffusion Transformer (DiT) tem sido um padrão de referência para a síntese visual, a abordagem baseada em tokens do VAR beneficia diretamente da investigação em otimização dedicada aos modelos transformadores, permitindo-lhe superar o DiT tanto em escalabilidade como em eficiência de dados.

Aplicações no Mundo Real

Ao combinar as capacidades de raciocínio dos LLMs com a visão de alta fidelidade, a Modelagem Autoregressiva Visual oferece várias funcionalidades práticas:

  • Edição de imagens e preenchimento de lacunas sem treinamento prévio: o VAR suporta nativamente a manipulação sem treinamento prévio. Ao mascarar determinadas escalas ou regiões, os programadores podem editar ou ampliar imagens de forma integrada, sem necessidade de retreinar ou ajustar a arquitetura de base.
  • Geração escalável de recursos para o retalho: a extrema velocidade de inferência do VAR permite a síntese de imagens em tempo real e de alta qualidade, possibilitando a geração dinâmica de fundos para produtos e a criação de recursos de marketing personalizados em grande escala.

Implementação de fluxos de trabalho autorregressivos

Embora os modelos VAR se concentrem na geração de conteúdo, podem ser combinados com modelos de perceção avançados, como Ultralytics , para criar fluxos de trabalho multimodais abrangentes. Por exemplo, pode utilizar o YOLO26 para a deteção precisa de objetos, a fim de isolar os sujeitos, e depois enviar essas regiões específicas para um modelo autorregressivo para aprimoramento ou reestilização.

Segue-se um esboço conceptual PyTorch que demonstra como um ciclo autorregressivo multiescala prevê iterativamente a próxima escala de um mapa de tokens, simulando a lógica subjacente do VAR utilizando módulos padrão PyTorch :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Para os investigadores que pretendem criar pipelines de visão de ponta a ponta — desde a seleção de conjuntos de dados até à avaliação de arquiteturas complexas —, a Ultralytics oferece ferramentas robustas para anotação automática, rastreamento e implementação na nuvem. Quer se trate de otimizar um Modelo de Linguagem de Visão (VLM) ou de experimentar previsões de nova dimensão, os ecossistemas unificados de inteligência visual aceleram a inovação em casos de utilização do mundo real.

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina