Görsel Otoregresif Modellemeyi (VAR) keşfedin. Next-scale tahmininin, geleneksel yöntemlere ve difüzyon tekniğine kıyasla görüntü üretme hızını ve kalitesini nasıl artırdığını öğrenin.
Görsel Otoregresif Modelleme (VAR), Büyük Dil Modelleri (LLM’ler) tarafından yaygınlaştırılan otoregresif öğrenme stratejilerini görüntü üretme görevlerine uyarlayan gelişmiş bir bilgisayar görme paradigmasıdır. Geleneksel görsel otoregresif yöntemler, bir görüntüyü 1B dizisine kodlar ve raster tarama sırasına göre token bazında tahmin eder; bu, hesaplama açısından maliyetlidir ve görsel verilerin doğal 2B yapısını göz ardı eder. Buna karşılık, VAR kaba-ince "bir sonraki ölçek tahmini" yaklaşımını getirir. Tek tek tokenleri satır satır tahmin etmek yerine, yüksek çözünürlüklü özellik haritalarını veya ölçekleri aşamalı olarak tahmin ederek görüntüler üretir. Bu metodoloji, yapısal bütünlüğü korurken hem görüntü kalitesini hem de çıkarım hızını önemli ölçüde artırır.
Temelde VAR, geleneksel bir sonraki token tahminini bir sonraki ölçek tahminiyle değiştirir. Bir görüntü ilk olarak, Vektörle Nicelendirilmiş Varyasyonel Otomatik Kodlayıcı (VQ-VAE) benzeri bir mimari kullanılarak çok ölçekli ayrık token haritalarına sıkıştırılır. Oluşturma aşamasında, bir dönüştürücü modeli bu token haritalarını en küçük çözünürlükten (1x1 ızgara gibi) hedef çözünürlüğe (16x16 veya 32x32 ızgara gibi) kadar sırayla tahmin eder. VAR, her ölçekte uzamsal yapıları eşzamanlı olarak işlediği için, 2D görüntülerde doğal olarak bulunan çift yönlü korelasyonları başarıyla korur.
Bu yenilikçi yaklaşım, VAR modellerinin OpenAI GPT-4 gibi metin tabanlı mimarilerle karşılaştırılabilir, öngörülebilir ölçeklendirme kuralları oluşturmasını sağlıyor. Araştırmacılar model parametrelerini büyüttükçe, performans tutarlı bir şekilde artıyor. Görsel Otoregresif Modelleme üzerine NeurIPS 2024 makalesine göre, VAR zorlu ImageNet rakip mimarileri başarıyla geride bırakmaktadır. Hem Frechet Inception Distance (FID) hem de inception puanlarında daha iyi sonuçlar elde ederken, çok daha hızlı çalışmaktadır.
VAR'ı difüzyon tabanlı Üretken Yapay Zeka'dan ayırmak önemlidir. Difüzyon modelleri, başlangıç tuvalinden sürekli gürültüyü tekrarlı olarak gidererek görüntü üretmeyi öğrenir. Ancak VAR, ayrık tokenler üzerinde çalışır. Gürültüyü gidermek yerine, görüntü çözünürlüğünü çözünürlük bazında otoregresif olarak oluşturur. Difüzyon Transformatörü (DiT) görsel sentez için önde gelen bir standart olsa da, VAR'ın token tabanlı yaklaşımı, transformatör modellerine yapılan optimizasyon araştırmalarından doğrudan yararlanır ve hem ölçeklenebilirlik hem de veri verimliliği açısından DiT'yi geride bırakmasını sağlar.
LLM’lerin akıl yürütme yeteneklerini yüksek kaliteli görsel verilerle birleştiren Görsel Otoregresif Modelleme, bir dizi pratik olanağın kapısını aralıyor:
VAR modelleri içerik üretmeye odaklansa da, Ultralytics gibi güçlü algılama modelleriyle birleştirilerek kapsamlı çok modlu iş akışları oluşturulabilir. Örneğin, YOLO26'yı kullanarak nesneleri hassas bir şekilde tespit edip konuları ayırabilir ve ardından bu belirli bölgeleri, iyileştirme veya yeniden stil verme amacıyla bir otoregresif modele aktarabilirsiniz.
Aşağıda kavramsal bir PyTorch kod parçası, çok ölçekli otoregresif döngünün bir token haritasının bir sonraki ölçeğini nasıl yinelemeli olarak tahmin ettiğini gösterir ve VAR'ın temel mantığını standart PyTorch modülleri kullanarak simüle eder:
import torch
import torch.nn as nn
# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
def __init__(self):
super().__init__()
# Simulated transformer to predict next resolution token map
self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)
def forward(self, initial_scale_token):
current_tokens = initial_scale_token
# Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
for scale in [1, 2, 4]:
# Model predicts the structural layout for the higher resolution
next_scale_tokens = self.transformer(current_tokens)
# Expand and update tokens for the next iteration
current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
return current_tokens
model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256) # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")
Veri kümelerinin derlenmesinden karmaşık mimari yapıların değerlendirilmesine kadar uçtan uca görsel işleme süreçleri oluşturmak isteyen araştırmacılar için Ultralytics , otomatik etiketleme, izleme ve bulut dağıtımı için güçlü araçlar sunar. İster bir Görsel Dil Modeli’ni (VLM) optimize edin, ister yeni nesil tahmin yöntemlerini deneyin, bütünleşik görsel zeka ekosistemleri gerçek dünya kullanım senaryolarında inovasyonu hızlandırır.
Makine öğreniminin geleceği ile yolculuğunuza başlayın