Yolo Vision Shenzhen
Shenzhen
Iscriviti ora
Glossario

Modellizzazione autoregressiva visiva (VAR)

Scopri la modellazione autoregressiva visiva (VAR). Scopri come la previsione next-scale migliori la velocità e la qualità della generazione delle immagini rispetto ai metodi tradizionali e alla diffusione.

La modellazione autoregressiva visiva (VAR) è un paradigma avanzato di visione artificiale che adatta le strategie di apprendimento autoregressivo rese popolari dai modelli linguistici di grandi dimensioni (LLM) alle attività di generazione di immagini. I metodi autoregressivi visivi tradizionali codificano un'immagine in una sequenza 1D e la prevedono token per token in un ordine di scansione raster, il che è computazionalmente oneroso e ignora la struttura 2D naturale dei dati visivi. Al contrario, il VAR introduce un approccio di "predizione della scala successiva" dal grossolano al fine. Genera immagini prevedendo progressivamente mappe di caratteristiche o scale a risoluzione più alta, piuttosto che prevedere singoli token riga per riga. Questa metodologia preserva l'integrità strutturale migliorando significativamente sia la qualità dell'immagine che la velocità di inferenza.

Come funziona la modellizzazione autoregressiva visiva

In sostanza, il VAR sostituisce la tradizionale previsione del token successivo con la previsione della scala successiva. Un'immagine viene innanzitutto compressa in mappe di token discrete multiscala utilizzando un'architettura simile a un AutoEncoder Variazionale a Quantizzazione Vettoriale (VQ-VAE). Durante la fase di generazione, un modello Transformer prevede queste mappe di token in modo sequenziale, partendo dalla risoluzione più piccola (come una griglia 1x1) fino alla risoluzione di destinazione (come una griglia 16x16 o 32x32). Poiché elabora le strutture spaziali simultaneamente a ogni scala, il VAR riesce a preservare le correlazioni bidirezionali inerenti alle immagini 2D.

Questo nuovo approccio consente ai modelli VAR di stabilire leggi di scalabilità prevedibili paragonabili a quelle delle architetture basate sul testo come OpenAI GPT-4. Man mano che i ricercatori aumentano i parametri del modello, le prestazioni migliorano in modo costante. Secondo il documento NeurIPS 2024 sul Visual Autoregressive Modeling, VAR supera con successo le architetture concorrenti nel rigoroso ImageNet . Raggiunge metriche migliori sia nella Frechet Inception Distance (FID) che nei punteggi di inception, pur eseguendo i calcoli molto più velocemente.

VAR contro modelli di diffusione

È importante distinguere il VAR dall'IA generativa basata sulla diffusione. I modelli di diffusione imparano a generare immagini rimuovendo in modo iterativo il rumore continuo da una tela iniziale. Il VAR, invece, opera su token discreti. Anziché rimuovere il rumore, costruisce l'immagine in modo autoregressivo, risoluzione per risoluzione. Mentre il Diffusion Transformer (DiT) è stato uno standard di riferimento per la sintesi visiva, l'approccio basato sui token del VAR beneficia direttamente della ricerca sull'ottimizzazione dedicata ai modelli Transformer, consentendogli di superare il DiT sia in termini di scalabilità che di efficienza dei dati.

Applicazioni nel mondo reale

Combinando le capacità di ragionamento dei modelli di linguaggio di grandi dimensioni (LLM) con una visione ad alta fedeltà, la modellazione autoregressiva visiva offre numerose funzionalità pratiche:

  • Modifica delle immagini e in-painting zero-shot: VAR supporta nativamente la manipolazione zero-shot. Mascherando determinate scale o aree, gli sviluppatori possono modificare o estendere le immagini in modo fluido senza dover riaddestrare o ottimizzare l'architettura di base.
  • Generazione scalabile di risorse per il commercio al dettaglio: l'estrema velocità di inferenza di VAR consente una sintesi delle immagini in tempo reale e di alta qualità, rendendo possibile la generazione dinamica di sfondi per i prodotti e la creazione su larga scala di risorse di marketing personalizzate.

Implementazione di flussi di lavoro autoregressivi

Sebbene i modelli VAR siano incentrati sulla generazione di contenuti, possono essere abbinati a potenti modelli di percezione come Ultralytics per creare pipeline multimodali complete. Ad esempio, è possibile utilizzare YOLO26 per il rilevamento preciso degli oggetti al fine di isolare i soggetti, per poi trasmettere quelle specifiche aree a un modello autoregressivo per il miglioramento o la modifica stilistica.

Di seguito è riportato un modello concettuale PyTorch che dimostra come un ciclo autoregressivo multiscala preveda in modo iterativo la scala successiva di una mappa dei token, simulando la logica sottostante del VAR utilizzando i moduli standard PyTorch :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Ai ricercatori che intendono realizzare pipeline di visione end-to-end — dalla selezione dei set di dati alla valutazione di architetture complesse — la Ultralytics offre strumenti affidabili per l’ annotazione automatica, il tracciamento e l’implementazione su cloud. Che si tratti di ottimizzare un modello linguistico visivo (VLM) o di sperimentare previsioni su scala superiore, gli ecosistemi unificati di intelligenza visiva accelerano l’innovazione in tutti i casi d’uso reali.

Costruiamo insieme il futuro dell'intelligenza artificiale!

Inizia il tuo viaggio con il futuro del machine learning