Diferansiyel görüntüleme teknolojisinin 3B grafikler ile yapay zeka arasındaki boşluğu nasıl doldurduğunu keşfedin. Ultralytics eğitimi ve bilgisayar görme uygulamaları için 3B sahneleri nasıl optimize edeceğinizi öğrenin.
Türevlenebilir görüntü işleme, bilgisayar görme ve 3B grafik alanında, çıktı görüntü oluşturma sürecinin geometri, aydınlatma, malzemeler ve kamera konumu gibi giriş 3B sahne parametrelerine göre matematiksel olarak tamamen türevlenebilir olduğu gelişmiş bir tekniktir. "Kara kutular" gibi çalışan geleneksel render motorlarının aksine, türevlenebilir bir render motoru, makine öğrenimi modellerinin gradyanları doğrudan 2D piksel çıktılarından temel 3D varlıklara doğru hesaplamasına olanak tanır. Gradyanların bu sürekli akışı, derin öğrenme ağlarının standart geri yayılım tekniklerini kullanarak 3D ortamları optimize etmesini sağlar ve düz 2D görüntüler ile sürükleyici 3D uzamsal farkındalık arasındaki boşluğu doldurur.
Temel olarak, türevlenebilir bir görüntü işleyici, rasterleştirme veya ışın izleme süreci sırasında işlemleri takip eder; böylece kalkülüsün zincir kuralı geriye doğru uygulanabilir. Sistem, işlenmiş bir görüntü ile hedef görüntü arasındaki farkı (kaybı) hesapladığında, 3B ağları veya dokuları ayarlamak için 2B piksellerden geriye doğru gradyanları iletir.
arXiv akademik arşivlerinde belgelenen son dönemdeki yeniliklerin önemli bir alanı, SDF’lerin (İşaretli Mesafe Alanları) türevlenebilir görüntülenmesini kapsamaktadır. Açık poligonlar kullanmak yerine, İşaretli Mesafe Alanları, uzaydaki herhangi bir noktadan en yakın yüzey sınırına olan mesafeyi hesaplayarak 3B şekilleri matematiksel olarak tanımlar. SDF’lerin türevlenebilir görüntülenmesine yönelik basit bir yaklaşım, ışın ilerletme algoritmalarını kullanır. Işık ışınları SDF yüzeyiyle kesiştiğinde, renderlayıcı implicit farklılaştırma kullanarak kesin kesişme noktasında gradyanları hesaplar. Bu yöntem, binlerce kırılgan mesh köşesini takip etmenin hesaplama yükü olmadan karmaşık örtümleri ve keskin kenar gradyanlarını zarif bir şekilde ele alır, bu da onu PyTorch3D ve NVIDIA gibi kütüphanelerde vazgeçilmez kılar.
Bu terimler derin öğrenme literatüründe sıklıkla bir arada karşılaşılsa da, modern grafik iş akışlarının birbirinden ayrı bileşenlerini tanımlamaktadır:
Render işlemini tersine çevrilebilir hale getiren türevlenebilir bir renderlayıcı, görüntü tabanlı 3B akıl yürütmeyi mümkün kılar. Genellikle “ters grafikler” olarak adlandırılan bu kavram, yapay zeka modellerinin tek bir 2B fotoğrafa bakarak onu oluşturan 3B şekli, doku ve ışıklandırmayı çıkarsamasına olanak tanır.
MIT CSAIL gibi önde gelen kurumlar ve Google 3D araştırmaları üzerinde çalışan kurumsal ekipler, uzamsal zekayı geliştirmek için bu teknolojiyi kullanıyor. Pratik uygulamalar sektörleri dönüştürüyor:
ACM SIGGRAPH gibi teorik konferanslarda yoğun bir şekilde tartışılsa da, türevlenebilir görüntüleme, üretim düzeyindeki yapay zeka için, özellikle de sentetik veri üretimi alanında son derece pratik uygulamalara sahiptir. Görüntü işleme mühendisleri, türevlenebilir çerçeveleri kullanarak 3B sahneleri programlı bir şekilde optimize edebilir ve nadir görülen aydınlatma koşullarını simüle etmek veya belirli nesnelerin birbirini örtmesini sağlamak gibi sınır durumlarına yönelik eğitim verileri üretebilir.
Bu mükemmel şekilde etiketlenmiş sentetik veriler daha sonra Ultralytics yüklenerek, sağlam nesne algılama ve görüntü segmentasyonu iş akışlarının eğitilmesi için kullanılabilir.
from ultralytics import YOLO
# Load the latest Ultralytics YOLO26 architecture
model = YOLO("yolo26n.pt")
# Train the model natively on a dataset generated via a differentiable renderer
results = model.train(data="synthetic_rendered_data.yaml", epochs=50, imgsz=640)
3B üretken teknikler ile Ultralytics gibi pratik 2B görme modelleri arasındaki boşluğu doldurarak, geliştiriciler, eğitim verilerinin yetersiz olduğu durumlarda bile gerçek dünyayı kavrayabilen, son derece dayanıklı yapay zeka sistemleri oluşturabilirler. OpenAI’nin bilgisayar görme alanındaki gelişmelerini destekleyen kuruluşlar, gerçek 3B uzamsal farkındalığa sahip görsel bilgileri işleyen modeller geliştirmek için bu araçlardan yararlanmaya devam ediyor.
Makine öğreniminin geleceği ile yolculuğunuza başlayın