Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Türevlenebilir Görüntüleme

Diferansiyel görüntüleme teknolojisinin 3B grafikler ile yapay zeka arasındaki boşluğu nasıl doldurduğunu keşfedin. Ultralytics eğitimi ve bilgisayar görme uygulamaları için 3B sahneleri nasıl optimize edeceğinizi öğrenin.

Türevlenebilir görüntü işleme, bilgisayar görme ve 3B grafik alanında, çıktı görüntü oluşturma sürecinin geometri, aydınlatma, malzemeler ve kamera konumu gibi giriş 3B sahne parametrelerine göre matematiksel olarak tamamen türevlenebilir olduğu gelişmiş bir tekniktir. "Kara kutular" gibi çalışan geleneksel render motorlarının aksine, türevlenebilir bir render motoru, makine öğrenimi modellerinin gradyanları doğrudan 2D piksel çıktılarından temel 3D varlıklara doğru hesaplamasına olanak tanır. Gradyanların bu sürekli akışı, derin öğrenme ağlarının standart geri yayılım tekniklerini kullanarak 3D ortamları optimize etmesini sağlar ve düz 2D görüntüler ile sürükleyici 3D uzamsal farkındalık arasındaki boşluğu doldurur.

Türevlenebilir Görüntüleyiciler Nasıl Çalışır?

Temel olarak, türevlenebilir bir görüntü işleyici, rasterleştirme veya ışın izleme süreci sırasında işlemleri takip eder; böylece kalkülüsün zincir kuralı geriye doğru uygulanabilir. Sistem, işlenmiş bir görüntü ile hedef görüntü arasındaki farkı (kaybı) hesapladığında, 3B ağları veya dokuları ayarlamak için 2B piksellerden geriye doğru gradyanları iletir.

arXiv akademik arşivlerinde belgelenen son dönemdeki yeniliklerin önemli bir alanı, SDF’lerin (İşaretli Mesafe Alanları) türevlenebilir görüntülenmesini kapsamaktadır. Açık poligonlar kullanmak yerine, İşaretli Mesafe Alanları, uzaydaki herhangi bir noktadan en yakın yüzey sınırına olan mesafeyi hesaplayarak 3B şekilleri matematiksel olarak tanımlar. SDF’lerin türevlenebilir görüntülenmesine yönelik basit bir yaklaşım, ışın ilerletme algoritmalarını kullanır. Işık ışınları SDF yüzeyiyle kesiştiğinde, renderlayıcı implicit farklılaştırma kullanarak kesin kesişme noktasında gradyanları hesaplar. Bu yöntem, binlerce kırılgan mesh köşesini takip etmenin hesaplama yükü olmadan karmaşık örtümleri ve keskin kenar gradyanlarını zarif bir şekilde ele alır, bu da onu PyTorch3D ve NVIDIA gibi kütüphanelerde vazgeçilmez kılar.

Türevlenebilir Görüntüleme ve Sinir Ağı Tabanlı Görüntüleme

Bu terimler derin öğrenme literatüründe sıklıkla bir arada karşılaşılsa da, modern grafik iş akışlarının birbirinden ayrı bileşenlerini tanımlamaktadır:

  • Diferansiyel Görüntüleme: Bu, grafik işleme zincirinde gradyanların akışını sağlayan temel matematiksel yapı ve algoritmik araç setidir. Bu, ışıklandırma veya şekildeki bir değişikliğin belirli bir piksele nasıl etki ettiğini hesaplayan motorudur.
  • Sinir Ağı ile Görüntü Oluşturma: Bu, görüntüleri oluşturmak veya sentezlemek için sinir ağlarının kullanıldığı daha geniş ve kapsayıcı bir kategoridir. Sinir ağı ile görüntü oluşturma iş akışları, çalışabilmek için büyük ölçüde türevlenebilir görüntü oluşturuculara dayanır. Örneğin, Gaussian Splatting ve Neural Radiance Fields gibi yaygın teknikler, fotogerçekçi görüntü sentezi elde etmek için arka planda türevlenebilir işlemler kullanır.

Görüntü Tabanlı 3B Akıl Yürütmede Uygulamalar

Render işlemini tersine çevrilebilir hale getiren türevlenebilir bir renderlayıcı, görüntü tabanlı 3B akıl yürütmeyi mümkün kılar. Genellikle “ters grafikler” olarak adlandırılan bu kavram, yapay zeka modellerinin tek bir 2B fotoğrafa bakarak onu oluşturan 3B şekli, doku ve ışıklandırmayı çıkarsamasına olanak tanır.

MIT CSAIL gibi önde gelen kurumlar ve Google 3D araştırmaları üzerinde çalışan kurumsal ekipler, uzamsal zekayı geliştirmek için bu teknolojiyi kullanıyor. Pratik uygulamalar sektörleri dönüştürüyor:

  • Otonom Araçlar: Sistemler engellerin mesafesini ve hacmini daha iyi tahmin edebilmek için düz gösterge paneli kamera görüntülerinden 3B ortamlar oluşturur.
  • Duruş Tahmini: Modeller, biyomekanik analiz amacıyla insan hareketinin 2B görüntülerine 3B iskelet parametrelerini doğrudan uyarlar.

Türev Alınabilir Görüntülemeyle Bilgisayar Görüşünü Geliştirme

ACM SIGGRAPH gibi teorik konferanslarda yoğun bir şekilde tartışılsa da, türevlenebilir görüntüleme, üretim düzeyindeki yapay zeka için, özellikle de sentetik veri üretimi alanında son derece pratik uygulamalara sahiptir. Görüntü işleme mühendisleri, türevlenebilir çerçeveleri kullanarak 3B sahneleri programlı bir şekilde optimize edebilir ve nadir görülen aydınlatma koşullarını simüle etmek veya belirli nesnelerin birbirini örtmesini sağlamak gibi sınır durumlarına yönelik eğitim verileri üretebilir.

Bu mükemmel şekilde etiketlenmiş sentetik veriler daha sonra Ultralytics yüklenerek, sağlam nesne algılama ve görüntü segmentasyonu iş akışlarının eğitilmesi için kullanılabilir.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 architecture
model = YOLO("yolo26n.pt")

# Train the model natively on a dataset generated via a differentiable renderer
results = model.train(data="synthetic_rendered_data.yaml", epochs=50, imgsz=640)

3B üretken teknikler ile Ultralytics gibi pratik 2B görme modelleri arasındaki boşluğu doldurarak, geliştiriciler, eğitim verilerinin yetersiz olduğu durumlarda bile gerçek dünyayı kavrayabilen, son derece dayanıklı yapay zeka sistemleri oluşturabilirler. OpenAI’nin bilgisayar görme alanındaki gelişmelerini destekleyen kuruluşlar, gerçek 3B uzamsal farkındalığa sahip görsel bilgileri işleyen modeller geliştirmek için bu araçlardan yararlanmaya devam ediyor.

Hadi birlikte yapay zekanın geleceğini şekillendirelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın