Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Визуальное авторегрессионное моделирование (VAR)

Ознакомьтесь с методом визуального авторегрессионного моделирования (VAR). Узнайте, как прогнозирование следующего масштаба позволяет повысить скорость и качество генерации изображений по сравнению с традиционными методами и диффузионными подходами.

Визуальное авторегрессионное моделирование (VAR) — это передовая парадигма компьютерного зрения, которая адаптирует стратегии авторегрессионного обучения, получившие широкое распространение благодаря большим языковым моделям (LLM), к задачам генерации изображений. Традиционные методы визуального авторегрессионного моделирования кодируют изображение в одномерную последовательность и прогнозируют его по токенам в порядке растрового сканирования, что требует больших вычислительных затрат и игнорирует естественную двумерную структуру визуальных данных. В отличие от этого, VAR использует подход «прогнозирования следующего уровня» от грубого к точному. Он генерирует изображения путем постепенного прогнозирования карт признаков или уровней с более высоким разрешением, а не путем прогнозирования отдельных токенов построчно. Эта методология сохраняет структурную целостность, одновременно значительно улучшая как качество изображения, так и скорость вывода.

Как работает визуальное авторегрессионное моделирование

По сути, VAR заменяет традиционное предсказание следующего токена на предсказание следующего масштаба. Сначала изображение сжимается в многомасштабные дискретные карты токенов с помощью архитектуры, аналогичной векторно-квантованному вариационному автокодеру (VQ-VAE). На этапе генерации модель трансформатора последовательно прогнозирует эти карты токенов, начиная с наименьшего разрешения (например, сетки 1x1) и заканчивая целевым разрешением (например, сетки 16x16 или 32x32). Поскольку VAR обрабатывает пространственные структуры одновременно на каждом масштабе, он успешно сохраняет двунаправленные корреляции, присущие 2D-изображениям.

Этот новаторский подход позволяет моделям VAR выявлять предсказуемые законы масштабирования, сопоставимые с текстовыми архитектурами, такими как OpenAI GPT-4. По мере увеличения исследователями параметров модели ее производительность стабильно растет. Согласно статье NeurIPS 2024 о визуальном авторегрессионном моделировании, VAR успешно превосходит конкурирующие архитектуры в требовательном ImageNet . Он достигает лучших показателей как по Frechet Inception Distance (FID), так и по Inception Scores, при этом работая значительно быстрее.

VAR против диффузионных моделей

Важно отличать VAR от генеративного ИИ, основанного на диффузии. Диффузионные модели учатся генерировать изображения путем последовательного удаления непрерывного шума с исходного холста. VAR, однако, работает с дискретными токенами. Вместо удаления шума он авторегрессивно строит изображение разрешение за разрешением. Хотя Diffusion Transformer (DiT) является ведущим стандартом для визуального синтеза, токен-ориентированный подход VAR напрямую извлекает выгоду из исследований по оптимизации, вложенных в трансформерные модели, что позволяет ему превосходить DiT как по масштабируемости, так и по эффективности использования данных.

Применение в реальном мире

Объединяя возможности больших языковых моделей (LLM) в области логического мышления с высококачественной обработкой изображений, визуальное авторегрессионное моделирование открывает ряд практических возможностей:

Внедрение авторегрессивных рабочих процессов

Хотя модели VAR ориентированы на генерацию контента, их можно сочетать с мощными моделями распознавания, такими как Ultralytics , для создания комплексных мультимодальных конвейеров. Например, можно использовать YOLO26 для точного распознавания объектов, чтобы выделить объекты съемки, а затем передать эти конкретные области в авторегрессионную модель для улучшения качества или изменения стиля.

Ниже представлена концептуальная PyTorch , демонстрирующий, как многомасштабный авторегрессионный цикл итеративно предсказывает следующий масштаб карты токенов, моделируя базовую логику VAR с использованием стандартных модулейPyTorch :

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Исследователям, стремящимся создать комплексные конвейеры обработки изображений — от подготовки наборов данных до оценки сложных архитектур, — Ultralytics предлагает надежные инструменты для автоматической аннотации, отслеживания и развертывания в облаке. Будь то оптимизация языковой модели для обработки изображений (VLM) или эксперименты с прогнозированием нового уровня, унифицированные экосистемы визуального интеллекта ускоряют инновации в реальных сценариях применения.

Давайте вместе создадим будущее искусственного интеллекта!

Начните свой путь в будущее машинного обучения