Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Modélisation autorégressive visuelle (VAR)

Découvrez la modélisation autorégressive visuelle (VAR). Découvrez comment la prédiction « next-scale » améliore la vitesse et la qualité de la génération d'images par rapport aux méthodes traditionnelles et à la diffusion.

La modélisation autorégressive visuelle (VAR) est un paradigme avancé de vision par ordinateur qui adapte les stratégies d'apprentissage autorégressif popularisées par les grands modèles linguistiques (LLM) aux tâches de génération d'images. Les méthodes autorégressives visuelles traditionnelles encodent une image en une séquence unidimensionnelle et la prédisent token par token dans un ordre de balayage raster, ce qui est coûteux en termes de calcul et ignore la structure bidimensionnelle naturelle des données visuelles. En revanche, le VAR introduit une approche de « prédiction à l'échelle suivante » allant du grossier au fin. Il génère des images en prédisant progressivement des cartes de caractéristiques ou des échelles de plus haute résolution, plutôt qu'en prédisant chaque token ligne par ligne. Cette méthodologie préserve l'intégrité structurelle tout en améliorant considérablement à la fois la qualité de l'image et la vitesse d'inférence.

Comment fonctionne la modélisation autorégressive visuelle

Fondamentalement, le VAR remplace la prédiction traditionnelle du « token » suivant par une prédiction de l'échelle suivante. Une image est d'abord compressée en cartes de tokens discrètes multi-échelles à l'aide d'une architecture similaire à celle d'un auto-encodeur variationnel à quantification vectorielle (VQ-VAE). Au cours de la phase de génération, un modèle de transformateur prédit ces cartes de tokens de manière séquentielle, en partant de la plus petite résolution (comme une grille 1x1) jusqu’à la résolution cible (telle qu’une grille 16x16 ou 32x32). Comme il traite les structures spatiales simultanément à chaque échelle, le VAR préserve avec succès les corrélations bidirectionnelles inhérentes aux images 2D.

Cette nouvelle approche permet aux modèles VAR d'établir des lois d'évolutivité prévisibles comparables à celles d'architectures textuelles telles que OpenAI GPT-4. À mesure que les chercheurs augmentent les paramètres du modèle, les performances s'améliorent de manière constante. Selon l' article NeurIPS 2024 sur la modélisation autorégressive visuelle, VAR surpasse avec succès les architectures concurrentes dans le cadre du ImageNet exigeant ImageNet . Il obtient de meilleurs résultats tant en termes de Frechet Inception Distance (FID) que de scores d'inception, tout en s'exécutant beaucoup plus rapidement.

VAR vs modèles de diffusion

Il est important de distinguer le VAR de l'IA générative basée sur la diffusion. Les modèles de diffusion apprennent à générer des images en éliminant de manière itérative le bruit continu d'une toile de départ. Le VAR, en revanche, fonctionne sur des tokens discrets. Au lieu de débruiter, il construit l'image de manière autorégressive, résolution par résolution. Alors que le Diffusion Transformer (DiT) est la norme de référence en matière de synthèse visuelle, l'approche basée sur les tokens du VAR tire directement parti des recherches en optimisation consacrées aux modèles de transformateurs, ce qui lui permet de surpasser le DiT tant en termes d'évolutivité que d'efficacité des données.

Applications concrètes

En combinant les capacités de raisonnement des grands modèles de langage (LLM) avec une vision haute fidélité, la modélisation autorégressive visuelle offre plusieurs fonctionnalités pratiques :

Mise en œuvre de flux de travail autorégressifs

Si les modèles VAR se concentrent sur la génération de contenu, ils peuvent être associés à de puissants modèles de perception tels que Ultralytics afin de créer des pipelines multimodaux complets. Par exemple, vous pouvez utiliser YOLO26 pour une détection précise des objets afin d'isoler des sujets, puis transmettre ces zones spécifiques à un modèle autorégressif en vue d'une amélioration ou d'un restylage.

Voici une illustration conceptuelle PyTorch illustrant comment une boucle autorégressive multi-échelle prédit de manière itérative l'échelle suivante d'une carte de tokens, en simulant la logique sous-jacente du VAR à l'aide de modules PyTorch standard :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Pour les chercheurs qui souhaitent mettre en place des pipelines de vision de bout en bout — de la constitution d'ensembles de données à l'évaluation d'architectures complexes —, la Ultralytics propose des outils performants pour l' annotation automatique, le suivi et le déploiement dans le cloud. Qu'il s'agisse d'optimiser un modèle de langage visuel (VLM) ou d' expérimenter la prédiction à grande échelle, les écosystèmes unifiés d'intelligence visuelle accélèrent l'innovation dans le cadre de cas d'utilisation concrets.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique