용어집

시각적 자기회귀 모델링(VAR)

시각적 자기회귀 모델링(VAR)을 살펴보세요. 차세대 예측 기술이 기존 방식 및 확산 기법 대비 이미지 생성 속도와 품질을 어떻게 향상시키는지 알아보세요.

시각적 자기회귀 모델링(VAR)은 대규모 언어 모델(LLM) 을 통해 널리 보급된 자기회귀 학습 전략을 이미지 생성 작업에 적용한 첨단 컴퓨터 비전 패러다임입니다. 기존의 시각적 자기회귀 방식은 이미지를 1차원 시퀀스로 인코딩한 후 래스터 스캔 순서대로 토큰 단위로 예측하는데, 이는 계산 비용이 많이 들 뿐만 아니라 시각 데이터의 자연스러운 2차원 구조를 무시합니다. 반면, VAR은 거친 단계에서 세밀한 단계로 진행되는 "차원별 예측" 접근법을 도입합니다. 이는 개별 토큰을 행별로 예측하는 대신, 점차적으로 더 높은 해상도의 특징 맵이나 차원을 예측하여 이미지를 생성합니다. 이 방법론은 구조적 무결성을 유지하면서 이미지 품질과 추론 속도를 모두 크게 향상시킵니다.

시각적 자기회귀 모델링의 작동 원리

본질적으로 VAR은 기존의 ‘다음 토큰 예측’ 방식을 ‘다음 스케일 예측’ 방식으로 대체합니다. 이미지는 먼저 벡터 양자화 변분 자동 인코더(VQ-VAE)와 유사한 아키텍처를 사용하여 다중 스케일의 이산 토큰 맵으로 압축됩니다. 생성 단계에서 트랜스포머 모델은 가장 작은 해상도 (예: 1x1 그리드)부터 목표 해상도(예: 16x16 또는 32x32 그리드)에 이르기까지 이러한 토큰 맵을 순차적으로 예측합니다. VAR은 각 스케일에서 공간적 구조를 동시에 처리하기 때문에 2D 이미지에 내재된 양방향 상관관계를 성공적으로 보존합니다.

이 새로운 접근 방식을 통해 VAR 모델은 OpenAI GPT-4와 같은 텍스트 기반 아키텍처에 필적하는 예측 가능한 확장 법칙을 확립할 수 있습니다. 연구진이 모델 매개변수를 확장함에 따라 성능은 지속적으로 향상됩니다. 시각적 자기회귀 모델링( Visual Autoregressive Modeling) 에 관한 NeurIPS 2024 논문에 따르면, VAR은 ImageNet 경쟁 아키텍처들을 성공적으로 능가했습니다. 이 모델은 Frechet Inception Distance(FID) 와 인셉션 점수 모두에서 더 우수한 지표를 달성하는 동시에 훨씬 더 빠른 실행 속도를 보여줍니다.

VAR 대 확산 모델

VAR을 확산 기반 생성형 AI와 구분하는 것이 중요합니다. 확산 모델은 초기 캔버스에서 연속적인 노이즈를 반복적으로 제거함으로써 이미지를 생성하는 방법을 학습합니다. 반면 VAR은 이산 토큰을 기반으로 작동합니다. 노이즈 제거 대신 해상도를 하나씩 순차적으로 자동 회귀 방식으로 구축합니다. 디퓨전 트랜스포머(DiT) 가 시각적 합성의 선도적인 표준으로 자리 잡은 반면, VAR의 토큰 기반 접근 방식은 트랜스포머 모델에 투입된 최적화 연구의 성과를 직접적으로 활용하여, 확장성과 데이터 효율성 모두에서 DiT를 능가합니다.

실제 애플리케이션

LLM의 추론 능력과 고화질 영상 데이터를 결합한 시각적 자기회귀 모델링은 다음과 같은 다양한 실용적인 기능을 제공합니다:

제로샷 이미지 편집 및 인페인팅: VAR 은 제로샷 조작을 기본적으로 지원합니다. 특정 크기나 영역을 마스킹함으로써, 개발자는 기본 아키텍처를 재훈련하거나 미세 조정하지 않고도 이미지를 원활하게 편집하거나 확장할 수 있습니다.
소매용 확장 가능한 자산 생성: VAR의 탁월한 추론 속도는 실시간 고품질 이미지 합성을 가능하게 하여, 대규모의 동적 제품 배경 생성 및 맞춤형 마케팅 자산 제작을 실현합니다.

자회귀 워크플로 구현

VAR 모델은 콘텐츠 생성에 중점을 두지만, Ultralytics 같은 강력한 인식 모델과 결합하여 포괄적인 다중 모달 파이프라인을 구축할 수 있습니다. 예를 들어, YOLO26을 활용해 정밀한 물체 탐지 기능을 통해 피사체를 분리하고, 그 특정 영역을 자동 회귀 모델로 전달하여 보정하거나 스타일을 변경할 수 있습니다.

다음은 개념도입니다 PyTorch 다음은 표준 PyTorch 모듈을 사용하여 VAR의 기본 논리를 시뮬레이션하며, 다중 스케일 자기회귀 루프가 토큰 맵의 다음 스케일을 반복적으로 예측하는 방식을 보여주는 개념적인 PyTorch 코드 조각입니다:

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

데이터셋 큐레이션부터 복잡한 아키텍처 평가에 이르기까지 엔드투엔드 비전 파이프라인을 구축하려는 연구자들을 위해, Ultralytics 자동 주석 달기, 추적 및 클라우드 배포를 위한 강력한 도구를 제공합니다. 비전 언어 모델(VLM) 을 최적화하든, 차세대 예측 기술을 실험하든, 통합된 시각 지능 생태계는 실제 사용 사례 전반에 걸쳐 혁신을 가속화합니다.

시각적 자기회귀 모델링(VAR)

17가지 이상의 형식으로 내보내기. 전 세계 43개 지역에 배포.

H100 GPU에서 YOLO26을 시간당 2.39달러에 훈련하세요.

비전 AI 프로젝트를 뒷받침하는 유연한 기업용 라이선스.

차기 프로젝트를 성공적으로 이끌어 줄 엔터프라이즈 라이선스

스마트 주석 기능을 통해 최대 10배 더 빠르게 라벨링하세요

라벨링. 학습. 배포. 단일 플랫폼에서 모두 해결.

시각적 자기회귀 모델링의 작동 원리

VAR 대 확산 모델

실제 애플리케이션

자회귀 워크플로 구현

이 카테고리에서 더 읽어보기

Ultralytics중국 커뮤니티 모임: 전 세계에서 머신러닝에 대한 관심이 가장 높은 나라.

AMD Dev Day 상하이Ultralytics : 지역 기반 AI와 에이전트 시스템의 만남

2026 임베디드 비전 Ultralytics 주요 하이라이트

함께 AI의 미래를 만들어 갑시다!

시각적 자기회귀 모델링(VAR)

17가지 이상의 형식으로 내보내기. 전 세계 43개 지역에 배포.

H100 GPU에서 YOLO26을 시간당 2.39달러에 훈련하세요.

비전 AI 프로젝트를 뒷받침하는 유연한 기업용 라이선스.

차기 프로젝트를 성공적으로 이끌어 줄 엔터프라이즈 라이선스

스마트 주석 기능을 통해 최대 10배 더 빠르게 라벨링하세요

라벨링. 학습. 배포. 단일 플랫폼에서 모두 해결.

시각적 자기회귀 모델링의 작동 원리

VAR 대 확산 모델

실제 애플리케이션

자회귀 워크플로 구현

이 카테고리에서 더 읽어보기

Ultralytics중국 커뮤니티 모임: 전 세계에서 머신러닝에 대한 관심이 가장 높은 나라.

AMD Dev Day 상하이Ultralytics : 지역 기반 AI와 에이전트 시스템의 만남

2026 임베디드 비전 Ultralytics 주요 하이라이트

함께 AI의 미래를 만들어 갑시다!

라벨링. 학습. 배포. 단일 플랫폼에서 모두 해결.