Glossaire

Modélisation autorégressive visuelle (VAR)

Découvrez la modélisation autorégressive visuelle (VAR). Découvrez comment la prédiction « next-scale » améliore la vitesse et la qualité de la génération d'images par rapport aux méthodes traditionnelles et à la diffusion.

La modélisation autorégressive visuelle (VAR) est un paradigme avancé de vision par ordinateur qui adapte les stratégies d'apprentissage autorégressif popularisées par les grands modèles linguistiques (LLM) aux tâches de génération d'images. Les méthodes autorégressives visuelles traditionnelles encodent une image en une séquence unidimensionnelle et la prédisent token par token dans un ordre de balayage raster, ce qui est coûteux en termes de calcul et ignore la structure bidimensionnelle naturelle des données visuelles. En revanche, le VAR introduit une approche de « prédiction à l'échelle suivante » allant du grossier au fin. Il génère des images en prédisant progressivement des cartes de caractéristiques ou des échelles de plus haute résolution, plutôt qu'en prédisant chaque token ligne par ligne. Cette méthodologie préserve l'intégrité structurelle tout en améliorant considérablement à la fois la qualité de l'image et la vitesse d'inférence.

Comment fonctionne la modélisation autorégressive visuelle

Fondamentalement, le VAR remplace la prédiction traditionnelle du « token » suivant par une prédiction de l'échelle suivante. Une image est d'abord compressée en cartes de tokens discrètes multi-échelles à l'aide d'une architecture similaire à celle d'un auto-encodeur variationnel à quantification vectorielle (VQ-VAE). Au cours de la phase de génération, un modèle de transformateur prédit ces cartes de tokens de manière séquentielle, en partant de la plus petite résolution (comme une grille 1x1) jusqu’à la résolution cible (telle qu’une grille 16x16 ou 32x32). Comme il traite les structures spatiales simultanément à chaque échelle, le VAR préserve avec succès les corrélations bidirectionnelles inhérentes aux images 2D.

Cette nouvelle approche permet aux modèles VAR d'établir des lois d'évolutivité prévisibles comparables à celles d'architectures textuelles telles que OpenAI GPT-4. À mesure que les chercheurs augmentent les paramètres du modèle, les performances s'améliorent de manière constante. Selon l' article NeurIPS 2024 sur la modélisation autorégressive visuelle, VAR surpasse avec succès les architectures concurrentes dans le cadre du ImageNet exigeant ImageNet . Il obtient de meilleurs résultats tant en termes de Frechet Inception Distance (FID) que de scores d'inception, tout en s'exécutant beaucoup plus rapidement.

VAR vs modèles de diffusion

Il est important de distinguer le VAR de l'IA générative basée sur la diffusion. Les modèles de diffusion apprennent à générer des images en éliminant de manière itérative le bruit continu d'une toile de départ. Le VAR, en revanche, fonctionne sur des tokens discrets. Au lieu de débruiter, il construit l'image de manière autorégressive, résolution par résolution. Alors que le Diffusion Transformer (DiT) est la norme de référence en matière de synthèse visuelle, l'approche basée sur les tokens du VAR tire directement parti des recherches en optimisation consacrées aux modèles de transformateurs, ce qui lui permet de surpasser le DiT tant en termes d'évolutivité que d'efficacité des données.

Applications concrètes

En combinant les capacités de raisonnement des grands modèles de langage (LLM) avec une vision haute fidélité, la modélisation autorégressive visuelle offre plusieurs fonctionnalités pratiques :

Retouche d'images et retouche par remplissage sans apprentissage préalable : VAR prend en charge nativement la manipulation sans apprentissage préalable. En masquant certaines échelles ou certaines zones, les développeurs peuvent modifier ou agrandir des images en toute transparence, sans avoir à réentraîner ni à affiner l'architecture de base.
Création évolutive de ressources marketing pour le commerce de détail : la vitesse d'inférence exceptionnelle de VAR permet une synthèse d'images en temps réel et de haute qualité, facilitant ainsi la génération dynamique d'arrière-plans de produits et la création à grande échelle de ressources marketing personnalisées.

Mise en œuvre de flux de travail autorégressifs

Si les modèles VAR se concentrent sur la génération de contenu, ils peuvent être associés à de puissants modèles de perception tels que Ultralytics afin de créer des pipelines multimodaux complets. Par exemple, vous pouvez utiliser YOLO26 pour une détection précise des objets afin d'isoler des sujets, puis transmettre ces zones spécifiques à un modèle autorégressif en vue d'une amélioration ou d'un restylage.

Voici une illustration conceptuelle PyTorch illustrant comment une boucle autorégressive multi-échelle prédit de manière itérative l'échelle suivante d'une carte de tokens, en simulant la logique sous-jacente du VAR à l'aide de modules PyTorch standard :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Pour les chercheurs qui souhaitent mettre en place des pipelines de vision de bout en bout — de la constitution d'ensembles de données à l'évaluation d'architectures complexes —, la Ultralytics propose des outils performants pour l' annotation automatique, le suivi et le déploiement dans le cloud. Qu'il s'agisse d'optimiser un modèle de langage visuel (VLM) ou d' expérimenter la prédiction à grande échelle, les écosystèmes unifiés d'intelligence visuelle accélèrent l'innovation dans le cadre de cas d'utilisation concrets.

Modélisation autorégressive visuelle (VAR)

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Comment fonctionne la modélisation autorégressive visuelle

VAR vs modèles de diffusion

Applications concrètes

Mise en œuvre de flux de travail autorégressifs

En savoir plus dans cette catégorie

Rencontre communautaire Ultralyticsen Chine : le pays qui suscite le plus grand intérêt au monde pour l'apprentissage automatique.

Ultralytics l'AMD Dev Day de Shanghai : quand l'IA locale rencontre les systèmes agentiques

Les temps forts de la présence Ultralytics l'Embedded Vision Summit 2026

Construisons ensemble l'avenir de l'IA !

Modélisation autorégressive visuelle (VAR)

Exportation vers plus de 17 formats. Déploiement dans 43 régions du monde.

Entraînez YOLO26 sur des GPU H100 pour 2,39 $/heure.

Des licences d'entreprise flexibles pour donner vie à vos projets d'IA visuelle.

Des licences d'entreprise conçues pour dynamiser votre prochain projet

Étiquetez jusqu'à 10 fois plus vite grâce à l'annotation intelligente

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.

Comment fonctionne la modélisation autorégressive visuelle

VAR vs modèles de diffusion

Applications concrètes

Mise en œuvre de flux de travail autorégressifs

En savoir plus dans cette catégorie

Rencontre communautaire Ultralyticsen Chine : le pays qui suscite le plus grand intérêt au monde pour l'apprentissage automatique.

Ultralytics l'AMD Dev Day de Shanghai : quand l'IA locale rencontre les systèmes agentiques

Les temps forts de la présence Ultralytics l'Embedded Vision Summit 2026

Construisons ensemble l'avenir de l'IA !

Annoter. Entraîner. Déployer. Le tout sur une seule et même plateforme.