Глоссарий

Визуальное авторегрессионное моделирование (VAR)

Ознакомьтесь с методом визуального авторегрессионного моделирования (VAR). Узнайте, как прогнозирование следующего масштаба позволяет повысить скорость и качество генерации изображений по сравнению с традиционными методами и диффузионными подходами.

Визуальное авторегрессионное моделирование (VAR) — это передовая парадигма компьютерного зрения, которая адаптирует стратегии авторегрессионного обучения, получившие широкое распространение благодаря большим языковым моделям (LLM), к задачам генерации изображений. Традиционные методы визуального авторегрессионного моделирования кодируют изображение в одномерную последовательность и прогнозируют его по токенам в порядке растрового сканирования, что требует больших вычислительных затрат и игнорирует естественную двумерную структуру визуальных данных. В отличие от этого, VAR использует подход «прогнозирования следующего уровня» от грубого к точному. Он генерирует изображения путем постепенного прогнозирования карт признаков или уровней с более высоким разрешением, а не путем прогнозирования отдельных токенов построчно. Эта методология сохраняет структурную целостность, одновременно значительно улучшая как качество изображения, так и скорость вывода.

Как работает визуальное авторегрессионное моделирование

По сути, VAR заменяет традиционное предсказание следующего токена на предсказание следующего масштаба. Сначала изображение сжимается в многомасштабные дискретные карты токенов с помощью архитектуры, аналогичной векторно-квантованному вариационному автокодеру (VQ-VAE). На этапе генерации модель трансформатора последовательно прогнозирует эти карты токенов, начиная с наименьшего разрешения (например, сетки 1x1) и заканчивая целевым разрешением (например, сетки 16x16 или 32x32). Поскольку VAR обрабатывает пространственные структуры одновременно на каждом масштабе, он успешно сохраняет двунаправленные корреляции, присущие 2D-изображениям.

Этот новаторский подход позволяет моделям VAR выявлять предсказуемые законы масштабирования, сопоставимые с текстовыми архитектурами, такими как OpenAI GPT-4. По мере увеличения исследователями параметров модели ее производительность стабильно растет. Согласно статье NeurIPS 2024 о визуальном авторегрессионном моделировании, VAR успешно превосходит конкурирующие архитектуры в требовательном ImageNet . Он достигает лучших показателей как по Frechet Inception Distance (FID), так и по Inception Scores, при этом работая значительно быстрее.

VAR против диффузионных моделей

Важно отличать VAR от генеративного ИИ, основанного на диффузии. Диффузионные модели учатся генерировать изображения путем последовательного удаления непрерывного шума с исходного холста. VAR, однако, работает с дискретными токенами. Вместо удаления шума он авторегрессивно строит изображение разрешение за разрешением. Хотя Diffusion Transformer (DiT) является ведущим стандартом для визуального синтеза, токен-ориентированный подход VAR напрямую извлекает выгоду из исследований по оптимизации, вложенных в трансформерные модели, что позволяет ему превосходить DiT как по масштабируемости, так и по эффективности использования данных.

Применение в реальном мире

Объединяя возможности больших языковых моделей (LLM) в области логического мышления с высококачественной обработкой изображений, визуальное авторегрессионное моделирование открывает ряд практических возможностей:

Редактирование изображений и восстановление дефектов без предварительного обучения: VAR изначально поддерживает обработку изображений без предварительного обучения. За счет маскирования определенных масштабов или областей разработчики могут легко редактировать или расширять изображения без повторного обучения или тонкой настройки базовой архитектуры.
Масштабируемое создание маркетинговых материалов для розничной торговли: благодаря высочайшей скорости вывода VAR становится возможным синтез изображений высокого качества в режиме реального времени, что позволяет создавать динамические фоны для продуктов и персонализированные маркетинговые материалы в больших объемах.

Внедрение авторегрессивных рабочих процессов

Хотя модели VAR ориентированы на генерацию контента, их можно сочетать с мощными моделями распознавания, такими как Ultralytics , для создания комплексных мультимодальных конвейеров. Например, можно использовать YOLO26 для точного распознавания объектов, чтобы выделить объекты съемки, а затем передать эти конкретные области в авторегрессионную модель для улучшения качества или изменения стиля.

Ниже представлена концептуальная PyTorch , демонстрирующий, как многомасштабный авторегрессионный цикл итеративно предсказывает следующий масштаб карты токенов, моделируя базовую логику VAR с использованием стандартных модулейPyTorch :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Исследователям, стремящимся создать комплексные конвейеры обработки изображений — от подготовки наборов данных до оценки сложных архитектур, — Ultralytics предлагает надежные инструменты для автоматической аннотации, отслеживания и развертывания в облаке. Будь то оптимизация языковой модели для обработки изображений (VLM) или эксперименты с прогнозированием нового уровня, унифицированные экосистемы визуального интеллекта ускоряют инновации в реальных сценариях применения.

Визуальное авторегрессионное моделирование (VAR)

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Как работает визуальное авторегрессионное моделирование

VAR против диффузионных моделей

Применение в реальном мире

Внедрение авторегрессивных рабочих процессов

Читать больше в этой категории

Встреча сообщества Ultralyticsв Китае: страна, вызывающая наибольший интерес к машинному обучению во всем мире.

Ultralytics AMD Dev Day в Шанхае: локальный ИИ встречается с агентивными системами

Основные моменты выступления компании Ultralytics Embedded Vision Summit 2026

Давайте вместе создадим будущее искусственного интеллекта!

Визуальное авторегрессионное моделирование (VAR)

Экспорт в более чем 17 форматов. Развертывание в 43 регионах по всему миру.

Обучите модель YOLO26 на графических процессорах H100 за 2,39 доллара в час.

Гибкие условия корпоративного лицензирования для реализации ваших проектов в области искусственного интеллекта.

Корпоративное лицензирование, созданное для реализации вашего следующего проекта

Маркируйте в 10 раз быстрее благодаря интеллектуальной маркировке

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.

Как работает визуальное авторегрессионное моделирование

VAR против диффузионных моделей

Применение в реальном мире

Внедрение авторегрессивных рабочих процессов

Читать больше в этой категории

Встреча сообщества Ultralyticsв Китае: страна, вызывающая наибольший интерес к машинному обучению во всем мире.

Ultralytics AMD Dev Day в Шанхае: локальный ИИ встречается с агентивными системами

Основные моменты выступления компании Ultralytics Embedded Vision Summit 2026

Давайте вместе создадим будущее искусственного интеллекта!

Аннотируйте. Обучайте. Внедряйте. Всё на одной платформе.