Glossar

Visuelle autoregressive Modellierung (VAR)

Entdecken Sie die visuelle autoregressive Modellierung (VAR). Erfahren Sie, wie die „Next-Scale“-Vorhersage die Geschwindigkeit und Qualität der Bildgenerierung im Vergleich zu herkömmlichen Methoden und Diffusionsverfahren verbessert.

Die visuelle autoregressive Modellierung (VAR) ist ein fortschrittliches Paradigma der Bildverarbeitung, das die autoregressiven Lernstrategien, die durch große Sprachmodelle (LLMs) bekannt geworden sind, auf Bildgenerierungsaufgaben anwendet. Herkömmliche visuelle autoregressive Methoden kodieren ein Bild in eine 1D-Sequenz und sagen es Token für Token in einer Raster-Scan-Reihenfolge voraus, was rechenintensiv ist und die natürliche 2D-Struktur visueller Daten ignoriert. Im Gegensatz dazu führt VAR einen „Next-Scale“-Ansatz ein, der von grob nach fein vorgeht. Es generiert Bilder, indem es schrittweise Feature-Maps oder Skalen mit höherer Auflösung vorhersagt, anstatt einzelne Token Zeile für Zeile vorherzusagen. Diese Methodik bewahrt die strukturelle Integrität und verbessert gleichzeitig sowohl die Bildqualität als auch die Inferenzgeschwindigkeit erheblich.

So funktioniert die visuelle autoregressive Modellierung

Im Kern ersetzt VAR die herkömmliche Vorhersage des nächsten Tokens durch eine Vorhersage der nächsten Skalierung. Ein Bild wird zunächst mithilfe einer Architektur, die einem Vector Quantized Variational AutoEncoder (VQ-VAE) ähnelt, in diskrete Token-Karten mit mehreren Skalierungen komprimiert. Während der Generierungsphase prognostiziert ein Transformer-Modell diese Token-Karten sequenziell, beginnend mit der kleinsten Auflösung (z. B. einem 1x1-Raster) bis hin zur Zielauflösung (z. B. einem 16x16- oder 32x32-Raster). Da VAR räumliche Strukturen auf jeder Skala gleichzeitig verarbeitet, bewahrt es erfolgreich die bidirektionalen Korrelationen, die 2D-Bildern innewohnen.

Dieser neuartige Ansatz ermöglicht es VAR-Modellen, vorhersagbare Skalierungsgesetze zu etablieren, die mit textbasierten Architekturen wie OpenAI GPT-4 vergleichbar sind. Wenn Forscher die Modellparameter skalieren, verbessert sich die Leistung kontinuierlich. Laut dem NeurIPS-2024-Artikel über visuelle autoregressive Modellierung übertrifft VAR konkurrierende Architekturen im anspruchsvollen ImageNet erfolgreich. Es erzielt bessere Metriken sowohl beim Frechet Inception Distance (FID) als auch bei den Inception-Scores und läuft dabei deutlich schneller.

VAR vs. Diffusionsmodelle

Es ist wichtig, VAR von diffusionsbasierter generativer KI zu unterscheiden. Diffusionsmodelle lernen, Bilder zu generieren, indem sie iterativ kontinuierliches Rauschen von einer Ausgangsfläche entfernen. VAR arbeitet hingegen mit diskreten Tokens. Anstatt Rauschen zu entfernen, baut es das Bild autoregressiv Auflösung für Auflösung auf. Während der Diffusion Transformer (DiT) bislang ein führender Standard für die visuelle Synthese war, profitiert der tokenbasierte Ansatz von VAR direkt von der Optimierungsforschung, die in Transformer-Modelle eingeflossen ist, wodurch es DiT sowohl in Bezug auf Skalierbarkeit als auch Dateneffizienz übertrifft.

Anwendungsfälle in der Praxis

Durch die Kombination der logischen Fähigkeiten von LLMs mit hochauflösender Bildverarbeitung eröffnet das visuelle autoregressive Modellieren eine Reihe praktischer Anwendungsmöglichkeiten:

Bildbearbeitung und In-Painting ohne Vortraining: VAR unterstützt von Haus aus die Bearbeitung ohne Vortraining. Durch das Ausblenden bestimmter Skalen oder Bereiche können Entwickler Bilder nahtlos bearbeiten oder erweitern, ohne die Basisarchitektur neu trainieren oder feinabstimmen zu müssen.
Skalierbare Erstellung von Marketingmaterialien für den Einzelhandel: Die extrem hohe Inferenzgeschwindigkeit von VAR ermöglicht eine hochwertige Bildsynthese in Echtzeit und damit die dynamische Erstellung von Produkt-Hintergründen sowie personalisierte Marketingmaterialien in großem Umfang.

Implementierung autoregressiver Workflows

VAR-Modelle konzentrieren sich zwar auf die Generierung von Inhalten, können jedoch mit leistungsstarken Erkennungsmodellen wie Ultralytics kombiniert werden, um umfassende multimodale Pipelines zu erstellen. So können Sie beispielsweise YOLO26 für die präzise Objekterkennung nutzen, um Motive zu isolieren, und diese spezifischen Bereiche anschließend an ein autoregressives Modell zur Verbesserung oder Neugestaltung weiterleiten.

Nachfolgend finden Sie ein konzeptionelles PyTorch -Codeausschnitt, der veranschaulicht, wie eine mehrskalige autoregressive Schleife iterativ die nächste Skala einer Token-Map vorhersagt und dabei die zugrunde liegende Logik von VAR mithilfe von Standard- PyTorch -Modulen simuliert:

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Für Forscher, die durchgängige Bildverarbeitungs-Pipelines aufbauen möchten – von der Kuratierung von Datensätzen bis hin zur Bewertung komplexer Architekturen – bietet die Ultralytics leistungsstarke Tools für automatische Annotation, Tracking und Cloud-Bereitstellung. Ob bei der Optimierung eines Vision Language Model (VLM) oder beim Experimentieren mit Vorhersagen der nächsten Generation: Einheitliche Ökosysteme für visuelle Intelligenz beschleunigen Innovationen in Anwendungsfällen aus der Praxis.

Visuelle autoregressive Modellierung (VAR)

Exportieren Sie in über 17 Formate. Stellen Sie Ihre Inhalte in 43 Regionen weltweit bereit.

Trainieren Sie YOLO26 auf H100-GPUs für 2,39 $ pro Stunde.

Flexible Unternehmenslizenzen zur Umsetzung Ihrer Vision-AI-Projekte.

Unternehmenslizenzen, die Ihr nächstes Projekt voranbringen

Bis zu 10-mal schneller beschriften dank intelligenter Beschriftung

Annotieren. Trainieren. Bereitstellen. Alles auf einer Plattform.

So funktioniert die visuelle autoregressive Modellierung

VAR vs. Diffusionsmodelle

Anwendungsfälle in der Praxis

Implementierung autoregressiver Workflows

Mehr in dieser Kategorie lesen

Ultralytics-Community-Treffen UltralyticsChina: Das Land mit dem weltweit größten Interesse an maschinellem Lernen.

Ultralytics AMD Dev Day in Shanghai: Lokale KI trifft auf agentische Systeme

Die wichtigsten Highlights von Ultralytics dem Embedded Vision Summit 2026

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Visuelle autoregressive Modellierung (VAR)

Exportieren Sie in über 17 Formate. Stellen Sie Ihre Inhalte in 43 Regionen weltweit bereit.

Trainieren Sie YOLO26 auf H100-GPUs für 2,39 $ pro Stunde.

Flexible Unternehmenslizenzen zur Umsetzung Ihrer Vision-AI-Projekte.

Unternehmenslizenzen, die Ihr nächstes Projekt voranbringen

Bis zu 10-mal schneller beschriften dank intelligenter Beschriftung

Annotieren. Trainieren. Bereitstellen. Alles auf einer Plattform.

So funktioniert die visuelle autoregressive Modellierung

VAR vs. Diffusionsmodelle

Anwendungsfälle in der Praxis

Implementierung autoregressiver Workflows

Mehr in dieser Kategorie lesen

Ultralytics-Community-Treffen UltralyticsChina: Das Land mit dem weltweit größten Interesse an maschinellem Lernen.

Ultralytics AMD Dev Day in Shanghai: Lokale KI trifft auf agentische Systeme

Die wichtigsten Highlights von Ultralytics dem Embedded Vision Summit 2026

Lassen Sie uns gemeinsam die Zukunft der KI gestalten!

Annotieren. Trainieren. Bereitstellen. Alles auf einer Plattform.