Sözlük

Görsel Otoregresif Modelleme (VAR)

Görsel Otoregresif Modellemeyi (VAR) keşfedin. Next-scale tahmininin, geleneksel yöntemlere ve difüzyon tekniğine kıyasla görüntü üretme hızını ve kalitesini nasıl artırdığını öğrenin.

Görsel Otoregresif Modelleme (VAR), Büyük Dil Modelleri (LLM’ler) tarafından yaygınlaştırılan otoregresif öğrenme stratejilerini görüntü üretme görevlerine uyarlayan gelişmiş bir bilgisayar görme paradigmasıdır. Geleneksel görsel otoregresif yöntemler, bir görüntüyü 1B dizisine kodlar ve raster tarama sırasına göre token bazında tahmin eder; bu, hesaplama açısından maliyetlidir ve görsel verilerin doğal 2B yapısını göz ardı eder. Buna karşılık, VAR kaba-ince "bir sonraki ölçek tahmini" yaklaşımını getirir. Tek tek tokenleri satır satır tahmin etmek yerine, yüksek çözünürlüklü özellik haritalarını veya ölçekleri aşamalı olarak tahmin ederek görüntüler üretir. Bu metodoloji, yapısal bütünlüğü korurken hem görüntü kalitesini hem de çıkarım hızını önemli ölçüde artırır.

Görsel Otoregresif Modelleme Nasıl Çalışır?

Temelde VAR, geleneksel bir sonraki token tahminini bir sonraki ölçek tahminiyle değiştirir. Bir görüntü ilk olarak, Vektörle Nicelendirilmiş Varyasyonel Otomatik Kodlayıcı (VQ-VAE) benzeri bir mimari kullanılarak çok ölçekli ayrık token haritalarına sıkıştırılır. Oluşturma aşamasında, bir dönüştürücü modeli bu token haritalarını en küçük çözünürlükten (1x1 ızgara gibi) hedef çözünürlüğe (16x16 veya 32x32 ızgara gibi) kadar sırayla tahmin eder. VAR, her ölçekte uzamsal yapıları eşzamanlı olarak işlediği için, 2D görüntülerde doğal olarak bulunan çift yönlü korelasyonları başarıyla korur.

Bu yenilikçi yaklaşım, VAR modellerinin OpenAI GPT-4 gibi metin tabanlı mimarilerle karşılaştırılabilir, öngörülebilir ölçeklendirme kuralları oluşturmasını sağlıyor. Araştırmacılar model parametrelerini büyüttükçe, performans tutarlı bir şekilde artıyor. Görsel Otoregresif Modelleme üzerine NeurIPS 2024 makalesine göre, VAR zorlu ImageNet rakip mimarileri başarıyla geride bırakmaktadır. Hem Frechet Inception Distance (FID) hem de inception puanlarında daha iyi sonuçlar elde ederken, çok daha hızlı çalışmaktadır.

VAR ve Yayılma Modelleri

VAR'ı difüzyon tabanlı Üretken Yapay Zeka'dan ayırmak önemlidir. Difüzyon modelleri, başlangıç tuvalinden sürekli gürültüyü tekrarlı olarak gidererek görüntü üretmeyi öğrenir. Ancak VAR, ayrık tokenler üzerinde çalışır. Gürültüyü gidermek yerine, görüntü çözünürlüğünü çözünürlük bazında otoregresif olarak oluşturur. Difüzyon Transformatörü (DiT) görsel sentez için önde gelen bir standart olsa da, VAR'ın token tabanlı yaklaşımı, transformatör modellerine yapılan optimizasyon araştırmalarından doğrudan yararlanır ve hem ölçeklenebilirlik hem de veri verimliliği açısından DiT'yi geride bırakmasını sağlar.

Gerçek Dünya Uygulamaları

LLM’lerin akıl yürütme yeteneklerini yüksek kaliteli görsel verilerle birleştiren Görsel Otoregresif Modelleme, bir dizi pratik olanağın kapısını aralıyor:

Sıfır Öğretimli Görüntü Düzenleme ve Eksik Alan Doldurma: VAR, sıfır öğretimli işlemeyi yerel olarak destekler. Geliştiriciler, belirli ölçekleri veya bölgeleri maskelemek suretiyle, temel mimariyi yeniden eğitmeye veya ince ayarlamaya gerek kalmadan görüntüleri sorunsuz bir şekilde düzenleyebilir veya genişletebilir.
Perakende Sektörü için Ölçeklenebilir Varlık Oluşturma: VAR’ın olağanüstü çıkarım hızı, gerçek zamanlı ve yüksek kaliteli görüntü sentezine olanak tanıyarak, dinamik ürün arka planı oluşturma ve kişiselleştirilmiş pazarlama varlıklarının geniş ölçekte üretilmesini sağlar.

Oto-gerileyen İş Akışlarının Uygulanması

VAR modelleri içerik üretmeye odaklansa da, Ultralytics gibi güçlü algılama modelleriyle birleştirilerek kapsamlı çok modlu iş akışları oluşturulabilir. Örneğin, YOLO26'yı kullanarak nesneleri hassas bir şekilde tespit edip konuları ayırabilir ve ardından bu belirli bölgeleri, iyileştirme veya yeniden stil verme amacıyla bir otoregresif modele aktarabilirsiniz.

Aşağıda kavramsal bir PyTorch kod parçası, çok ölçekli otoregresif döngünün bir token haritasının bir sonraki ölçeğini nasıl yinelemeli olarak tahmin ettiğini gösterir ve VAR'ın temel mantığını standart PyTorch modülleri kullanarak simüle eder:

import torch
import torch.nn as nn


# Conceptual VAR Next-Scale Prediction Loop
class SimpleVARGenerator(nn.Module):
    def __init__(self):
        super().__init__()
        # Simulated transformer to predict next resolution token map
        self.transformer = nn.TransformerEncoderLayer(d_model=256, nhead=8)

    def forward(self, initial_scale_token):
        current_tokens = initial_scale_token
        # Iteratively generate next scales (e.g., 1x1 -> 2x2 -> 4x4)
        for scale in [1, 2, 4]:
            # Model predicts the structural layout for the higher resolution
            next_scale_tokens = self.transformer(current_tokens)
            # Expand and update tokens for the next iteration
            current_tokens = torch.cat((current_tokens, next_scale_tokens), dim=1)
        return current_tokens


model = SimpleVARGenerator()
seed_token = torch.randn(1, 1, 256)  # 1x1 starting scale
final_output = model(seed_token)
print(f"Generated multi-scale tokens shape: {final_output.shape}")

Veri kümelerinin derlenmesinden karmaşık mimari yapıların değerlendirilmesine kadar uçtan uca görsel işleme süreçleri oluşturmak isteyen araştırmacılar için Ultralytics , otomatik etiketleme, izleme ve bulut dağıtımı için güçlü araçlar sunar. İster bir Görsel Dil Modeli’ni (VLM) optimize edin, ister yeni nesil tahmin yöntemlerini deneyin, bütünleşik görsel zeka ekosistemleri gerçek dünya kullanım senaryolarında inovasyonu hızlandırır.

Görsel Otoregresif Modelleme (VAR)

17'den fazla formata aktarın. 43 küresel bölgeye dağıtın.

YOLO26 modelini H100 GPU'larda saat başına 2,39 $ karşılığında eğitin.

Vizyon yapay zeka projelerinizi destekleyecek esnek kurumsal lisanslama.

Bir sonraki projenizi desteklemek üzere tasarlanmış kurumsal lisanslama

Akıllı açıklama özelliği sayesinde etiketlemeyi 10 kata kadar hızlandırın

Etiketleyin. Eğitin. Dağıtın. Hepsi tek bir platformda.

Görsel Otoregresif Modelleme Nasıl Çalışır?

VAR ve Yayılma Modelleri

Gerçek Dünya Uygulamaları

Oto-gerileyen İş Akışlarının Uygulanması

Bu kategoride daha fazla okuyun

UltralyticsÇin topluluğu buluşması: Makine öğrenimine dünya çapında en fazla ilgi gösteren ülke.

AMD Dev Day Ultralytics : Yerel yapay zeka ile ajansal sistemlerin buluşması

Embedded Vision Summit Ultralytics 26 Ultralytics 'in öne çıkan noktaları

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Görsel Otoregresif Modelleme (VAR)

17'den fazla formata aktarın. 43 küresel bölgeye dağıtın.

YOLO26 modelini H100 GPU'larda saat başına 2,39 $ karşılığında eğitin.

Vizyon yapay zeka projelerinizi destekleyecek esnek kurumsal lisanslama.

Bir sonraki projenizi desteklemek üzere tasarlanmış kurumsal lisanslama

Akıllı açıklama özelliği sayesinde etiketlemeyi 10 kata kadar hızlandırın

Etiketleyin. Eğitin. Dağıtın. Hepsi tek bir platformda.

Görsel Otoregresif Modelleme Nasıl Çalışır?

VAR ve Yayılma Modelleri

Gerçek Dünya Uygulamaları

Oto-gerileyen İş Akışlarının Uygulanması

Bu kategoride daha fazla okuyun

UltralyticsÇin topluluğu buluşması: Makine öğrenimine dünya çapında en fazla ilgi gösteren ülke.

AMD Dev Day Ultralytics : Yerel yapay zeka ile ajansal sistemlerin buluşması

Embedded Vision Summit Ultralytics 26 Ultralytics 'in öne çıkan noktaları

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Etiketleyin. Eğitin. Dağıtın. Hepsi tek bir platformda.