Monoküler derinlik tahmininin nasıl çalıştığını, sensör tabanlı derinlik yöntemleriyle karşılaştırıldığında ne gibi farklılıklar gösterdiğini ve görüntü sistemlerinde ölçeklenebilir 3D algılamayı nasıl mümkün kıldığını öğrenin.
Monoküler derinlik tahmininin nasıl çalıştığını, sensör tabanlı derinlik yöntemleriyle karşılaştırıldığında ne gibi farklılıklar gösterdiğini ve görüntü sistemlerinde ölçeklenebilir 3D algılamayı nasıl mümkün kıldığını öğrenin.
Otonom araçlar, çevrelerinde neler olup bittiğini anlayarak güvenli bir şekilde sürüş yapabilmek için tasarlanmıştır. Bu, yayalar veya diğer araçlar gibi nesneleri basitçe tanımaktan öteye geçmek anlamına gelir.
Ayrıca, doğru tepki verebilmek için bu nesnelerin ne kadar uzakta olduğunu da bilmeleri gerekir. Ancak, makinelere bu mesafe algısını kazandırmak o kadar kolay değildir. İnsanların aksine, makineler görüntülerden doğal olarak derinlik algısı kazanmazlar ve bunun nasıl yapılacağı onlara açıkça öğretilmelidir.
Bunun bir nedeni, çoğu kameranın dünyayı düz, iki boyutlu görüntüler olarak yakalamasıdır. Bu görüntüleri gerçek dünyanın derinliğini ve 3D yapısını yansıtan bir şeye dönüştürmek, özellikle sistemlerin günlük koşullarda güvenilir bir şekilde çalışması gerektiğinde, oldukça zordur.
İlginç bir şekilde, görsel verileri yorumlamaya ve anlamaya odaklanan bir yapay zeka dalı olan bilgisayar görüşü, makinelerin görüntülerden dünyayı daha iyi anlamasını mümkün kılar. Örneğin, monoküler derinlik tahmini, yalnızca tek bir kamera görüntüsünü kullanarak nesnelerin mesafesini tahmin eden bir bilgisayar görüşü tekniğidir.
Nesne boyutu, perspektif, doku ve gölgeleme gibi görsel ipuçlarını öğrenerek, bu modeller LiDAR (Işık Algılama ve Mesafe Ölçümü) veya stereo kameralar gibi ek sensörlere ihtiyaç duymadan derinliği tahmin edebilirler. Bu makalede, monoküler derinlik tahmini nedir, nasıl çalışır ve gerçek hayattaki bazı uygulamaları nelerdir konularını inceleyeceğiz. Hadi başlayalım!
Monoküler derinlik tahmini, bir makinenin tek bir görüntü kullanarak nesnelerin kendisinden ne kadar uzakta olduğunu anlamasını sağlar. Tek bir kameraya dayandığı için, bu yaklaşımın daha düşük maliyet ve daha basit donanım gereksinimleri gibi birçok avantajı vardır.
Örneğin, tek bir kamera ile çalışan uygun fiyatlı ev robotlarında kullanılabilir. Robotik sistem, tek bir görüntüden bile hangi duvarların daha yakın, hangi kapıların daha uzak olduğunu belirleyebilir ve mekanın genel derinliğini tahmin edebilir.
Çoğu zaman, tek bir görüntü doğru ölçekte bilgi içermez, bu nedenle monoküler derinlik tahmini genellikle göreceli derinliğe odaklanır. Başka bir deyişle, kesin mesafeler bilinmese bile hangi nesnelerin daha yakın, hangilerinin daha uzak olduğunu belirleyebilir.
Bir model, LiDAR gibi sensörlerden elde edilen derinlik ölçümleri gibi gerçek mesafeler veya mutlak derinlik içeren verilerle eğitildiğinde, metre gibi gerçek dünya birimlerinde mesafeleri tahmin etmeyi öğrenebilir. Bu tür referans veriler olmadan, model yine de göreceli derinliği tahmin edebilir, ancak mutlak mesafeleri güvenilir bir şekilde tahmin edemez.
Monoküler derinlik tahmininin çıktısı genellikle bir derinlik haritasıdır. Bu harita, her pikselin sahnenin o kısmının ne kadar yakın veya uzak olduğunu temsil ettiği bir görüntüdür. Derinlik haritası, görme sistemlerine ortamın 3B yapısı hakkında temel bir anlayış sağlar.

Derinlik tahmini, mevcut sensörlere, donanım kısıtlamalarına ve doğruluk gereksinimlerine bağlı olarak çeşitli şekillerde ele alınabilir. Geleneksel yöntemler genellikle mesafeyi doğrudan ölçmek için birden fazla bakış açısına veya özel sensörlere dayanır.
Yaygın bir yaklaşım, hafifçe farklı bakış açılarından çekilen iki senkronize görüntüyü karşılaştırarak derinliği tahmin eden stereo görüşüdür. İki görüntüdeki karşılık gelen noktalar arasındaki farkı ölçerek, sistem nesnelerin kameradan ne kadar uzakta olduğunu tahmin edebilir.
Diğer bir yaklaşım ise, aktif derinlik sensörleri kullanarak her pikseldeki mesafeyi doğrudan ölçen RGB-D (Kırmızı, Yeşil, Mavi ve Derinlik) sistemleridir. Bu sistemler kontrollü ortamlarda doğru derinlik bilgisi sağlayabilir, ancak ek donanım gerektirir.
Öte yandan, LiDAR tabanlı yöntemler, bir sahnenin hassas üç boyutlu temsilini oluşturmak için lazer darbeleri kullanır. LiDAR sensörleri son derece hassas olmakla birlikte, genellikle pahalıdır ve donanım karmaşıklığını önemli ölçüde artırır.
Buna karşılık, monoküler derinlik tahmini, yalnızca tek bir RGB görüntüsünü kullanarak derinlik tahmininde bulunur. Birden fazla kamera veya özel sensörlere bağlı olmadığı için, büyük ölçekte kullanımı daha kolaydır ve maliyet ve donanım kaynaklarının sınırlı olduğu durumlarda iyi bir seçenektir.
Tek bir görüntüden derinliği tahmin ederken, monoküler derinlik modelleri, insanların mesafeyi değerlendirmek için içgüdüsel olarak kullandıkları görsel ipuçlarını tanımayı öğrenir. Bu ipuçları arasında perspektif çizgileri, nesne boyutu, doku yoğunluğu, nesne örtüşmesi ve gölgeleme bulunur ve bunların tümü nesnelerin kameradan ne kadar uzakta olduğuna dair ipuçları sağlar.
Bu ipuçları bir araya gelerek derinlik hissi yaratır. Daha küçük görünen veya kısmen örtülü nesneler genellikle daha uzaktadır, daha net ayrıntılar ve daha büyük görsel görünümler ise genellikle bir şeyin daha yakın olduğunu gösterir.
Bu kalıpları öğrenmek için, monoküler derinlik modelleri, genellikle LiDAR veya stereo sistemler gibi diğer kaynaklardan elde edilen derinlik bilgileriyle eşleştirilen büyük ölçekli görüntü veri kümeleri üzerinde eğitilir. Eğitim sırasında modeller, görsel ipuçlarının derinlikle nasıl ilişkili olduğunu öğrenir ve bu sayede, çıkarım sırasında tek bir görüntüden mesafeyi tahmin edebilirler.
Çeşitli eğitim verileriyle, modern görme modelleri, öğrenilen bu anlayışı iç ve dış mekanlar dahil olmak üzere çok çeşitli ortamlara genelleştirebilir ve alışılmadık bakış açılarını işleyebilir.
Ardından, tek bir görüntüden derinliği tahmin etmek için kullanılan başlıca yaklaşımları ve bu yöntemlerin zaman içinde nasıl geliştiğini inceleyeceğiz.
Erken derinlik tahmin yöntemleri, kamera geometrisine bağlı basit görsel kurallara dayanıyordu. Perspektif, nesne boyutu ve bir nesnenin diğerini engelleyip engellemediği gibi ipuçları, mesafeyi tahmin etmek için kullanılıyordu.
Örneğin, iki benzer nesne farklı boyutlarda göründüğünde, daha küçük olanın daha uzakta olduğu varsayılırdı. Bu yaklaşımlar, aydınlatma, kamera konumu ve sahne düzeni gibi faktörlerin sabit kaldığı kontrollü ortamlarda oldukça iyi sonuç verdi.
Ancak, gerçek hayattaki sahnelerde bu varsayımlar genellikle geçerliliğini yitirir. Işıklandırmadaki değişiklikler, bakış açısı değişiklikleri ve sahnenin karmaşıklığının artması, güvenilir olmayan derinlik tahminlerine yol açarak, kontrol edilemeyen ortamlarda klasik yöntemlerin etkinliğini sınırlayabilir.
Erken dönem makine öğrenimi yöntemleri, verilerden doğrudan kalıpları öğrenerek derinlik tahminine daha fazla esneklik getirdi. Bu modeller, yalnızca sabit geometrik kurallara dayanmak yerine, görsel bilgiler ile mesafe arasındaki ilişkiyi öğrenmeye çalıştı ve derinlik tahminini kenarlar, dokular ve renk değişiklikleri gibi ipuçlarına dayalı bir regresyon problemi olarak ele aldı.
Bu özelliklerin seçilmesi sürecin önemli bir parçasıydı. Mühendisler hangi görsel sinyalleri çıkaracaklarına ve bunları nasıl temsil edeceklerine karar vermek zorundaydılar ve modelin performansı büyük ölçüde bu seçimlere bağlıydı.
Bu yaklaşım önceki yöntemlerden daha iyi sonuç verse de, yine de sınırları vardı. Seçilen özellikler önemli bağlamlardan yoksun olduğunda, derinlik tahminleri daha az doğru oluyordu. Sahneler daha karmaşık ve çeşitlilik arz etmeye başladıkça, bu modeller genellikle güvenilir sonuçlar üretmekte zorlanıyordu.
Çoğu modern monoküler derinlik tahmin sistemi, verilerden karmaşık kalıpları öğrenebilen çok katmanlı sinir ağlarını ifade eden derin öğrenmeyi kullanır. Bu modeller, görüntülerden doğrudan derinlik tahmininde bulunmayı öğrenir ve derinlik haritaları oluşturur.
Birçok yaklaşım, kenar ve şekil gibi desenleri algılayarak görüntüleri işlemek için tasarlanmış bir tür sinir ağı olan evrişimli sinir ağları (CNN) kullanılarak oluşturulur. Bu modeller genellikle bir kodlayıcı-kod çözücü yapısı kullanır: kodlayıcı görüntüden görsel özellikleri çıkarır ve kod çözücü bu özellikleri bir derinlik haritasına dönüştürür. Görüntüyü birden çok ölçekte işlemek, modelin sahnenin genel düzenini yakalamasına ve aynı zamanda nesnelerin sınırlarını net bir şekilde algılamasına yardımcı olur.
Daha yeni modeller, görüntünün farklı bölümleri arasındaki ilişkileri anlamaya odaklanmaktadır. Transformer tabanlı ve Vision Transformer (ViT) modelleri, modelin görüntünün hangi bölgelerinin en alakalı olduğunu belirlemesine ve uzak alanları birbiriyle ilişkilendirmesine olanak tanıyan dikkat mekanizmaları kullanır. Bu, modelin tüm sahne boyunca derinlik konusunda daha tutarlı bir anlayış oluşturmasına yardımcı olur.
Bazı sistemler her iki fikri birleştirir. Hibrit CNN–Transformer modelleri, ince yerel ayrıntıları yakalamak için CNN'leri ve sahnenin genel bağlamını modellemek için Transformer'ları kullanır. Bu, genellikle doğruluğu artırsa da, genellikle ek bellek ve işlem gücü gibi daha fazla hesaplama kaynağı gerektirir.
Monoküler derinlik tahminini öğrenirken, derinlik anlayışının görme tabanlı yapay zeka sistemlerinde neden bu kadar önemli bir rol oynadığını merak ediyor olabilirsiniz.
Bir sistem nesnelerin ve yüzeylerin ne kadar uzakta olduğunu tahmin edebildiğinde, sahnenin nasıl düzenlendiğini ve farklı öğelerin birbirleriyle nasıl ilişkili olduğunu daha iyi anlar. Bu tür bir uzamsal farkındalık, özellikle otonom sürüş gibi gerçek dünya uygulamalarında güvenilir kararlar almak için çok önemlidir.
Derinlik bilgisi, diğer bilgisayar görme görevlerine de değerli bir bağlam katar. Örneğin, Ultralytics gibi modeller tarafından desteklenen nesne algılama, bir sahnede neyin bulunduğunu sisteme söyleyebilir, ancak derinlik, bu nesnelerin kameraya ve birbirlerine göre nerede bulunduklarını yanıtlamaya yardımcı olur.
Bu özellikler bir araya geldiğinde, 3D haritalar oluşturmak, karmaşık ortamlarda gezinmek ve bir sahneyi bir bütün olarak anlamak gibi çok çeşitli görsel yapay zeka uygulamalarını mümkün kılar.
Robotlar ve otonom araçlar, güvenli bir şekilde hareket etmek, engelleri önlemek ve değişikliklere gerçek zamanlı olarak tepki vermek için bu bilgilere ihtiyaç duyar. Örneğin, Tesla'nın yalnızca görme tabanlı sürüş yaklaşımı, nesnelerin ne kadar uzakta olduğunu ve yolda nasıl konumlandığını anlamak için LiDAR yerine kamera görüntülerini derinlik tahminiyle birleştirir.
Model mimarileri farklılık gösterse de, çoğu monoküler derinlik tahmin modeli tek bir görüntüyü derinlik haritasına dönüştürmek için benzer bir süreç izler. İşte ilgili temel adımların kısa bir özeti:
Az önce tartıştığımız süreç, halihazırda eğitilmiş veya önceden eğitilmiş bir modele sahip olduğumuzu varsaymaktadır. Peki, tek gözlü derinlik tahmin modelinin eğitimi aslında nasıl gerçekleşir?
Eğitim, ağ tarafından verimli bir şekilde işlenebilmesi için görüntü verilerinin hazırlanmasıyla başlar. Giriş görüntüleri yeniden boyutlandırılır ve tutarlı bir ölçeğe normalleştirilir, ardından modelden geçirilerek her pikseldeki mesafeyi tahmin eden bir tahmini derinlik haritası oluşturulur.
Tahmin edilen derinlik haritası daha sonra, modelin tahmininin gerçek derinlikten ne kadar uzak olduğunu ölçen bir kayıp fonksiyonu kullanılarak referans derinlik verileriyle karşılaştırılır. Bu kayıp değeri, modelin mevcut hatasını temsil eder ve iyileştirme için bir sinyal sağlar.
Optimize edici, bu sinyali kullanarak iç ağırlıklarını ayarlayarak modeli günceller. Bunu yapmak için, optimize edici, her bir model parametresine göre kaybın nasıl değiştiğini açıklayan gradyanı hesaplar ve bu güncellemeleri birden fazla dönem boyunca veya eğitim veri setini tam olarak geçerek tekrar tekrar uygular.
Bu yinelemeli denetimli öğrenme eğitimi süreci, her bir güncelleme adımının büyüklüğünü kontrol eden öğrenme hızı ve bir seferde kaç görüntünün işleneceğini belirleyen toplu iş boyutu gibi hiperparametreler tarafından yönlendirilir. Eğitim çok sayıda matematiksel işlem içerdiğinden, genellikle paralel hesaplama için ideal olan grafik işlem birimi (GPU) kullanılarak hızlandırılır.
Eğitim tamamlandıktan sonra, model, eğitim sırasında kullanılmayan görüntülerden oluşan bir doğrulama seti üzerinde standart değerlendirme ölçütleri kullanılarak değerlendirilir. Bu değerlendirme, modelin yeni verilere ne kadar iyi genelleştirildiğini ölçmeye yardımcı olur.
Eğitimli model daha sonra yeni senaryolar için yeniden kullanılabilir veya ince ayar yapılabilir. Genel olarak, bu eğitim süreci, monoküler derinlik tahmin modellerinin tutarlı derinlik tahminleri üretmesini sağlar. Bu tahminler, 3D rekonstrüksiyon ve gerçek dünya uygulamaları gibi sonraki aşamalardaki görevler için çok önemlidir.
Modeller sadece küçük görsel detayları değil, tüm sahneleri daha iyi anlamaya başladıkça, monoküler derinlik tahmini hızla gelişmiştir. Önceki yaklaşımlar, özellikle karmaşık ortamlarda genellikle düzensiz derinlik haritaları üretirdi.
ArXiv'de yayınlanan son araştırmalarda görüldüğü gibi, yeni modeller daha çok küresel bağlama odaklanıyor ve bu da daha istikrarlı ve gerçekçi görünen derinlik tahminlerine yol açıyor. MiDaS ve DPT gibi tanınmış modeller, çeşitli yüksek çözünürlüklü veri kümelerinden derinlik öğrenerek ve birçok sahnede iyi bir genelleme yaparak bu değişimi destekledi.
ZoeDepth ve Depth Anything V2 gibi daha yeni modeller, geniş bir ayar aralığında güçlü performansı korurken ölçek tutarlılığını iyileştirerek bu çalışmayı daha da geliştirmiştir. Bu tür ilerlemeler genellikle, hem dış mekan hem de iç mekan sahnelerini kapsayan KITTI ve NYU gibi yaygın benchmark veri setleri kullanılarak ölçülür.
Bir başka belirgin eğilim ise doğruluk ile pratiklik arasında denge kurmaktır. Daha küçük modeller hız için optimize edilmiştir ve uç veya mobil cihazlarda gerçek zamanlı olarak çalışabilirken, daha büyük modeller daha yüksek çözünürlük ve uzun menzilli derinlik doğruluğuna öncelik verir.
Şimdi, tek gözle derinlik tahmininin tek bir görüntüden bir sahnenin 3D yapısını anlamak için nasıl kullanıldığını gösteren bazı gerçek dünya örneklerini inceleyelim.
Tüm bu durumlarda, derinlik bilgisinin görsel ipuçlarından çıkarılan bir tahmin olduğunu, kesin bir ölçüm olmadığını unutmamak önemlidir. Bu, monoküler derinlik tahminini göreceli düzeni ve uzamsal ilişkileri anlamak için yararlı kılar, ancak LiDAR veya stereo sistemler gibi mesafeyi doğru bir şekilde ölçmek için tasarlanmış sensörlerin yerini almaz.
Dronlar genellikle ormanlar, şantiyeler, afet bölgeleri veya yoğun kentsel alanlar gibi GPS sinyallerinin güvenilir olmadığı ortamlarda çalışır. Bu koşullarda güvenli bir şekilde uçmak için, çevredeki araziyi anlamaları ve engellerin ne kadar uzakta olduğunu bilmeleri gerekir. Geçmişte, bu genellikle LiDAR veya stereo kameralar gibi sensörlerin eklenmesini gerektiriyordu, bu da ağırlığı, güç tüketimini ve genel maliyeti artırıyordu.
Monoküler derinlik tahmini daha basit bir alternatiftir. Tek bir RGB kamera kullanarak, dronlar görüntülerden derinliği tahmin edebilir ve çevreleri hakkında temel bir 3D anlayış oluşturabilir. Bu, binalar, ağaçlar veya arazideki ani değişiklikler gibi detect ve uçuş rotalarını gerçek zamanlı olarak ayarlamalarını sağlar.
Bu derinlik tahminleri, engellerden kaçınma, irtifa kontrolü ve güvenli iniş gibi önemli navigasyon görevlerini destekler. Sonuç olarak, hafif drone'lar özel derinlik sensörlerine ihtiyaç duymadan haritalama, inceleme ve navigasyon görevlerini yerine getirebilir.

Otonom araçlar genellikle LiDAR sensörlerine büyük ölçüde bağımlıdır. LiDAR sensörleri, lazer darbeleri kullanarak mesafeyi ölçer ve yolun 3 boyutlu görüntüsünü oluşturur. LiDAR son derece hassas olmakla birlikte, keskin yol tepeleri, dik eğimler, engeller veya ani araç eğimleri ile zorlanabilir ve bazen seyrek veya eksik derinlik verileri döndürebilir.
Monoküler derinlik tahmini, LiDAR verileri eksik olsa bile tek bir RGB görüntüsünden yoğun derinlik bilgisi sağlayarak bu boşlukları doldurmaya yardımcı olabilir. Otonom bir aracın hızla bir tepe zirvesine yaklaştığı bir senaryo düşünün. LiDAR ışınları tepenin ötesindeki yolu aşabilir ve önünüzde ne olduğu konusunda belirsizlik yaratabilir.
Bununla birlikte, kamera tabanlı derinlik tahmini, perspektif ve doku gibi görsel ipuçlarından yolun şeklini hala tahmin edebilir ve LiDAR verileri stabilize olana kadar aracın güvenilir algılamasını sürdürmesine yardımcı olur. LiDAR ve monoküler derinlik tahmini birlikte, zorlu sürüş koşullarında daha istikrarlı algılama ve daha güvenli kontrol sağlar.

Robotlar genellikle ayrıntılı haritaların bulunmadığı ve koşulların sürekli değiştiği yerlerde çalıştırılır. Güvenli bir şekilde hareket edebilmeleri için, çevrelerindeki alanın büyüklüğü ve engellerin yerleri hakkında güvenilir bir algıya sahip olmaları gerekir.
Monoküler derinlik tahmini, ağır veya pahalı donanımlara ihtiyaç duymadan, tek bir RGB kamera kullanarak bu uzamsal farkındalığı sağlayabilir. Ölçek ve perspektif gibi görsel ipuçlarını öğrenerek, derinlik tahmin modelleri çevrenin yoğun derinlik haritalarını oluşturabilir. Bu, robotlara yüzeyler ve nesnelere olan mesafeyi net bir şekilde görme imkanı sağlar.
Özellikle, derinlik bilgisi nesne algılama ve anlamsal segmentasyon gibi bilgisayar görme görevleriyle birleştirildiğinde, robotlar çevrelerini daha eksiksiz bir şekilde görebilirler. Nesneleri tanımlayabilir, mesafelerini anlayabilir ve hareket etmenin güvenli olduğu yerleri belirleyebilirler. Bu, engellerden kaçınma, boş alan algılama ve gerçek zamanlı yol planlamayı destekler.

Monoküler derinlik tahminini kullanmanın başlıca avantajlarından bazıları şunlardır:
Monoküler derinlik tahmini belirgin avantajlar sunsa da, dikkate alınması gereken bazı sınırlamalar vardır:
Monoküler derinlik tahmini ilginç bir araştırma alanı olmakla birlikte, bunun pratikte nerede kullanılabileceğini ve nerede kullanılamayacağını anlamak önemlidir. Bu yöntemle elde edilen mesafeler, modelin bir görüntüde gördüklerine dayanan tahminlerdir, gerçek dünyadan alınan kesin ölçümler değildir.
Bu nedenle, sonuçların kalitesi aydınlatma, sahnenin karmaşıklığı ve sahnenin modelin eğitildiği sahneye ne kadar benzediği gibi faktörlere bağlı olarak değişebilir. Monoküler derinlik tahmini genellikle neyin daha yakın, neyin daha uzak olduğunu belirlemede iyidir, ancak kesin mesafeler gerektiğinde güvenilir değildir.
Güvenlik açısından kritik sistemler, endüstriyel denetim veya nesnelerle çok hassas bir şekilde etkileşime girmesi gereken robotlar gibi hassasiyetin gerçekten önemli olduğu durumlarda, derinlik doğrudan ölçülmelidir. LiDAR, radar, stereo kameralar veya yapılandırılmış ışık sistemleri gibi sensörler bu amaçla tasarlanmıştır ve çok daha güvenilir mesafe bilgileri sağlar.
Monoküler derinlik tahmini, görsel olarak zorlu koşullarda da sorun yaşayabilir. Zayıf aydınlatma, güçlü gölgeler, yansıtıcı veya şeffaf yüzeyler, sis, duman veya çok az görsel dokuya sahip sahneler, derinlik tahminlerinin güvenilirliğini azaltabilir. Uzun mesafelerde derinlik tahmini, özel sensörlerin genellikle daha iyi çalıştığı bir başka durumdur.
Gerçek dünya çözümleri söz konusu olduğunda, monoküler derinlik tahmini, bağımsız bir çözümden ziyade destekleyici bir araç olarak en iyi şekilde çalışır. Yararlı uzamsal bağlam ekleyebilir, diğer sensörlerin sınırlı olduğu durumlarda boşlukları doldurmaya yardımcı olabilir ve genel sahne anlayışını iyileştirebilir. Ancak, doğruluk, güvenlik veya katı güvenilirlik gereksinimleri önemli olduğunda, derinlik bilgisinin tek kaynağı olmamalıdır.
Monoküler derinlik tahmini, makinelerin tek bir kamera görüntüsü kullanarak nesnelerin ne kadar uzakta olduğunu tahmin etmesini sağlayan bir bilgisayar görme tekniğidir. Perspektif, nesne boyutu, doku ve gölgeleme gibi görsel ipuçlarını öğrenerek, bu yapay zeka modelleri LiDAR veya stereo kameralar gibi sensörlere bağlı kalmadan bir sahnenin 3D yapısını çıkarabilir. Bu, monoküler derinlik tahminini otonom sürüş, robotik ve 3D sahne anlayışı gibi uygulamalar için uygun maliyetli ve ölçeklenebilir bir yaklaşım haline getirir.
Vision AI hakkında daha fazla bilgi edinmek için GitHub deposunu ziyaret edin ve topluluğumuza katılın. Robotikte yapay zeka ve imalatta bilgisayar görüşü hakkında bilgi edinmek için çözüm sayfalarımızı inceleyin. Bilgisayar görüşüne bugün başlamak için lisans seçeneklerimizi keşfedin!