시각적 자기회귀 모델링(VAR)을 살펴보세요. 차세대 예측 기술이 기존 방식 및 확산 기법 대비 이미지 생성 속도와 품질을 어떻게 향상시키는지 알아보세요.
시각적 자기회귀 모델링(VAR)은 대규모 언어 모델(LLM) 을 통해 널리 보급된 자기회귀 학습 전략을 이미지 생성 작업에 적용한 첨단 컴퓨터 비전 패러다임입니다. 기존의 시각적 자기회귀 방식은 이미지를 1차원 시퀀스로 인코딩한 후 래스터 스캔 순서대로 토큰 단위로 예측하는데, 이는 계산 비용이 많이 들 뿐만 아니라 시각 데이터의 자연스러운 2차원 구조를 무시합니다. 반면, VAR은 거친 단계에서 세밀한 단계로 진행되는 "차원별 예측" 접근법을 도입합니다. 이는 개별 토큰을 행별로 예측하는 대신, 점차적으로 더 높은 해상도의 특징 맵이나 차원을 예측하여 이미지를 생성합니다. 이 방법론은 구조적 무결성을 유지하면서 이미지 품질과 추론 속도를 모두 크게 향상시킵니다.
본질적으로 VAR은 기존의 ‘다음 토큰 예측’ 방식을 ‘다음 스케일 예측’ 방식으로 대체합니다. 이미지는 먼저 벡터 양자화 변분 자동 인코더(VQ-VAE)와 유사한 아키텍처를 사용하여 다중 스케일의 이산 토큰 맵으로 압축됩니다. 생성 단계에서 트랜스포머 모델은 가장 작은 해상도 (예: 1x1 그리드)부터 목표 해상도(예: 16x16 또는 32x32 그리드)에 이르기까지 이러한 토큰 맵을 순차적으로 예측합니다. VAR은 각 스케일에서 공간적 구조를 동시에 처리하기 때문에 2D 이미지에 내재된 양방향 상관관계를 성공적으로 보존합니다.
이 새로운 접근 방식을 통해 VAR 모델은 OpenAI GPT-4와 같은 텍스트 기반 아키텍처에 필적하는 예측 가능한 확장 법칙을 확립할 수 있습니다. 연구진이 모델 매개변수를 확장함에 따라 성능은 지속적으로 향상됩니다. 시각적 자기회귀 모델링( Visual Autoregressive Modeling) 에 관한 NeurIPS 2024 논문에 따르면, VAR은 ImageNet 경쟁 아키텍처들을 성공적으로 능가했습니다. 이 모델은 Frechet Inception Distance(FID) 와 인셉션 점수 모두에서 더 우수한 지표를 달성하는 동시에 훨씬 더 빠른 실행 속도를 보여줍니다.
VAR을 확산 기반 생성형 AI와 구분하는 것이 중요합니다. 확산 모델은 초기 캔버스에서 연속적인 노이즈를 반복적으로 제거함으로써 이미지를 생성하는 방법을 학습합니다. 반면 VAR은 이산 토큰을 기반으로 작동합니다. 노이즈 제거 대신 해상도를 하나씩 순차적으로 자동 회귀 방식으로 구축합니다. 디퓨전 트랜스포머(DiT) 가 시각적 합성의 선도적인 표준으로 자리 잡은 반면, VAR의 토큰 기반 접근 방식은 트랜스포머 모델에 투입된 최적화 연구의 성과를 직접적으로 활용하여, 확장성과 데이터 효율성 모두에서 DiT를 능가합니다.
LLM의 추론 능력과 고화질 영상 데이터를 결합한 시각적 자기회귀 모델링은 다음과 같은 다양한 실용적인 기능을 제공합니다:
VAR 모델은 콘텐츠 생성에 중점을 두지만, Ultralytics 같은 강력한 인식 모델과 결합하여 포괄적인 다중 모달 파이프라인을 구축할 수 있습니다. 예를 들어, YOLO26을 활용해 정밀한 물체 탐지 기능을 통해 피사체를 분리하고, 그 특정 영역을 자동 회귀 모델로 전달하여 보정하거나 스타일을 변경할 수 있습니다.
다음은 개념도입니다 PyTorch 다음은 표준 PyTorch 모듈을 사용하여 VAR의 기본 논리를 시뮬레이션하며, 다중 스케일 자기회귀 루프가 토큰 맵의 다음 스케일을 반복적으로 예측하는 방식을 보여주는 개념적인 PyTorch 코드 조각입니다:
import torch
import torch.nn as nn
# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
def __init__(self):
super().__init__()
# Simulated transformer to predict next resolution token map
self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)
def forward(self, initial_scale_token):
current_tokens = initial_scale_token
# Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
for scale in [1, 2, 4]:
# Model predicts the structural layout for the higher resolution
next_scale_tokens = self.transformer(current_tokens)
# Expand and update tokens for the next iteration
current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
return current_tokens
model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256) # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")
데이터셋 큐레이션부터 복잡한 아키텍처 평가에 이르기까지 엔드투엔드 비전 파이프라인을 구축하려는 연구자들을 위해, Ultralytics 자동 주석 달기, 추적 및 클라우드 배포를 위한 강력한 도구를 제공합니다. 비전 언어 모델(VLM) 을 최적화하든, 차세대 예측 기술을 실험하든, 통합된 시각 지능 생태계는 실제 사용 사례 전반에 걸쳐 혁신을 가속화합니다.
미래의 머신러닝 여정을 시작하세요