Kılavuzlar

Monoküler derinlik tahmini nedir? Bir genel bakış

Monoküler derinlik tahmininin nasıl çalıştığını, sensör tabanlı derinlik yöntemleriyle nasıl karşılaştırıldığını ve görü sistemlerinde ölçeklenebilir 3D algılamayı nasıl sağladığını öğren.

ABAbirami Vina

8 min readFebruary 5, 2026

Monoküler derinlik tahmini kullanılarak oluşturulan tahmin edilen bir derinlik haritası

Otonom araçlar, güvenli sürüş yapabilmek adına çevrelerinde neler olup bittiğini anlayacak şekilde tasarlanmıştır. Bu, sadece yaya veya diğer araçlar gibi nesneleri tanımanın ötesine geçmek anlamına gelir.

Ayrıca, doğru tepkiler verebilmek için bu nesnelerin ne kadar uzakta olduğunu bilmeleri gerekir. Ancak, makinelere bu mesafe algısını kazandırmak o kadar kolay değildir. İnsanların aksine, görüntülerden derinliği doğal bir şekilde algılayamazlar ve bunu nasıl yapacaklarının onlara açıkça öğretilmesi gerekir.

Bunun bir nedeni, çoğu kameranın dünyayı düz, iki boyutlu görüntüler olarak yakalamasıdır. Bu görüntüleri, özellikle sistemlerin günlük koşullarda güvenilir bir şekilde çalışması gerektiğinde, gerçek dünyadaki derinliği ve 3D yapıyı yansıtan bir şeye dönüştürmek zordur.

İlginç bir şekilde, görsel verileri yorumlamaya ve anlamaya odaklanan bir AI dalı olan computer vision, makinelerin dünyayı görüntülerden daha iyi anlamasını mümkün kılar. Örneğin monoküler depth estimation, yalnızca tek bir kamera görüntüsü kullanarak nesnelerin mesafesini tahmin eden bir computer vision tekniğidir.

Nesne boyutu, perspektif, doku ve gölgelendirme gibi görsel ipuçlarını öğrenerek, bu modeller LiDAR (Işık Algılama ve Uzaklık Ölçümü) veya stereo kameralar gibi ek sensörlere güvenmeden derinliği tahmin edebilir. Bu makalede monoküler derinlik tahmininin ne olduğunu, nasıl çalıştığını ve gerçek dünyadaki bazı uygulama alanlarını keşfedeceğiz. Hadi başlayalım!

Link to this sectionMonoküler derinlik tahminine hızlı bir giriş#

Monoküler derinlik tahmini, bir makinenin sadece tek bir görüntü kullanarak nesnelerin kendisinden ne kadar uzakta olduğunu anlamasını sağlar. Yalnızca tek bir camera üzerine dayandığından, bu yaklaşım daha düşük maliyet ve daha basit donanım gereksinimleri gibi çeşitli avantajlara sahiptir.

Örneğin, tek bir kamera ile çalışan uygun fiyatlı ev robotlarında kullanılabilir. Robotik sistem, tek bir görüntüden bile hangi duvarların daha yakın, hangi kapıların daha uzak olduğunu belirleyebilir ve mekanın genel derinliğini çıkarabilir.

Genellikle tek bir görüntü doğru ölçekte bilgi içermediğinden, monoküler derinlik tahmini genellikle göreli derinliğe odaklanır. Başka bir deyişle, tam mesafeler bilinmese bile hangi nesnelerin daha yakın, hangilerinin daha uzak olduğunu belirleyebilir.

Bir model, LiDAR gibi sensörlerden alınan derinlik ölçümleri gibi gerçek mesafeler veya mutlak derinlik içeren verilerle eğitildiğinde, gerçek dünya birimlerinde (örneğin metre cinsinden) mesafe tahmini yapmayı öğrenebilir. Bu tür referans verileri olmadan model, göreli derinliği hala çıkarabilir ancak mutlak mesafeleri güvenilir bir şekilde tahmin edemez.

Monoküler derinlik tahmininin çıktısı genellikle bir derinlik haritasıdır; bu, her pikselin sahnenin o kısmının ne kadar yakın veya uzak olduğunu temsil ettiği bir görüntüdür. Bir derinlik haritası, vizyon sistemlerine ortamın 3D yapısı hakkında temel bir anlayış sağlar.

Monoküler derinlik tahmini kullanılarak oluşturulan tahmini bir derinlik haritası örneği

Şekil 1. Monoküler derinlik tahmini kullanılarak oluşturulan tahmini bir derinlik haritası örneği (Kaynak)

Link to this sectionSensörlerden görüntülere: Derinlik tahmini#

Derinlik tahmini, mevcut sensörlere, donanım kısıtlamalarına ve doğruluk gereksinimlerine bağlı olarak birkaç şekilde ele alınabilir. Geleneksel yöntemler genellikle mesafeyi doğrudan ölçmek için birden fazla bakış açısına veya özel sensörlere dayanır.

Yaygın bir yaklaşım, biraz farklı bakış açılarından yakalanan iki senkronize görüntüyü karşılaştırarak derinliği tahmin eden stereo vizyondur. İki görüntüdeki karşılık gelen noktalar arasındaki farkı ölçerek, sistem nesnelerin kameradan ne kadar uzakta olduğunu çıkarabilir.

Bir başka yaklaşım ise, her pikseldeki mesafeyi doğrudan ölçmek için aktif derinlik sensörleri kullanan RGB-D (Kırmızı, Yeşil, Mavi ve Derinlik) sistemleridir. Bu sistemler kontrollü ortamlarda doğru derinlik bilgisi sağlayabilir ancak ek donanım gerektirir.

Bu arada, LiDAR tabanlı yöntemler bir sahnenin hassas üç boyutlu temsillerini oluşturmak için lazer darbeleri kullanır. Çok doğru olmasına rağmen, LiDAR sensörleri genellikle pahalıdır ve önemli ölçüde donanım karmaşıklığı ekler.

Bunun aksine, monoküler derinlik tahmini, yalnızca tek bir RGB görüntüsü kullanarak derinliği çıkarır. Birden fazla kameraya veya özel sensöre bağlı olmadığından, ölçeklenebilir bir şekilde dağıtılması daha kolaydır ve maliyet ile donanım kaynaklarının sınırlı olduğu durumlarda iyi bir seçenektir.

Link to this sectionTek bir görüntüden derinliği öğrenme#

Tek bir görüntüden derinliği tahmin ederken, monoküler derinlik modelleri insanların mesafeyi yargılamak için içgüdüsel olarak kullandıkları görsel ipuçlarını tanımayı öğrenirler. Bu ipuçları arasında perspektif çizgileri, nesne boyutu, doku yoğunluğu, nesne örtüşmesi ve gölgelendirme bulunur; bunların hepsi nesnelerin kameradan ne kadar uzakta olduğuna dair ipuçları sağlar.

Bu ipuçları bir derinlik hissi yaratmak için birlikte çalışır. Daha küçük görünen veya kısmen örtülü olan nesneler genellikle daha uzaktadır; daha net detaylar ve daha büyük görsel görünümler ise genellikle bir şeyin daha yakın olduğunu gösterir.

Bu kalıpları öğrenmek için monoküler derinlik modelleri, genellikle LiDAR veya stereo sistemler gibi diğer kaynaklardan elde edilen derinlik bilgileriyle eşleştirilmiş büyük ölçekli görüntü veri kümeleri üzerinde eğitilir. Eğitim sırasında modeller, görsel ipuçlarının derinlikle nasıl ilişkili olduğunu öğrenir ve bu da çıkarım zamanında tek bir görüntüden mesafeyi tahmin etmelerini sağlar.

Çeşitli eğitim verileriyle, modern vizyon modelleri bu öğrenilmiş anlayışı, iç ve dış mekan sahneleri de dahil olmak üzere çok çeşitli ortamlarda genelleyebilir ve alışılmadık bakış açılarını işleyebilir.

Link to this sectionÇeşitli monoküler derinlik tahmini tekniklerine bir bakış#

Bir sonraki adımda, tek bir görüntüden derinliği tahmin etmek için kullanılan ana yaklaşımları ve bu yöntemlerin zaman içinde nasıl geliştiğini inceleyeceğiz.

Link to this sectionKlasik ve geometri tabanlı yaklaşımlar#

Erken dönem derinlik tahmini yöntemleri, camera geometry ile bağlantılı basit görsel kurallara dayanıyordu. Perspektif, nesne boyutu ve bir nesnenin diğerini engelleyip engellemediği gibi ipuçları mesafeyi tahmin etmek için kullanılıyordu.

Örneğin, benzer iki nesne farklı boyutlarda göründüğünde, daha küçük olanın daha uzakta olduğu varsayılıyordu. Bu yaklaşımlar, aydınlatma, kamera konumu ve sahne düzeni gibi faktörlerin tutarlı kaldığı kontrollü ortamlarda oldukça iyi çalışıyordu.

Ancak gerçek dünya sahnelerinde bu varsayımlar genellikle bozulur. Aydınlatmadaki değişimler, bakış açısı değişiklikleri ve artan sahne karmaşıklığı, güvenilmez derinlik tahminlerine yol açarak klasik yöntemlerin kontrolsüz ortamlardaki etkinliğini sınırlar.

Link to this sectionErken dönem makine öğrenimi yaklaşımları#

Erken dönem makine öğrenimi yöntemleri, doğrudan veriden kalıplar öğrenerek derinlik tahminine daha fazla esneklik kazandırdı. Sadece sabit geometrik kurallara güvenmek yerine bu modeller, kenarlar, dokular ve renk değişimleri gibi ipuçlarına dayalı bir regresyon problemi olarak derinlik tahminini ele alarak görsel bilgi ile mesafe arasındaki ilişkiyi öğrenmeye çalıştı.

Bu özellikleri seçmek sürecin kilit bir parçasıydı. Mühendislerin hangi görsel sinyallerin çıkarılacağına ve bunların nasıl temsil edileceğine karar vermesi gerekiyordu ve modelin performansı bu seçimlere büyük ölçüde bağlıydı.

Bu yaklaşım önceki yöntemlerden daha iyi çalışsa da hala sınırları vardı. Seçilen özellikler önemli bağlamlardan yoksunsa, derinlik tahminleri daha az doğru oluyordu. Sahneler daha karmaşık ve değişken hale geldikçe, bu modeller genellikle güvenilir sonuçlar üretmekte zorlanıyordu.

Link to this sectionDerin öğrenme algoritmaları#

Çoğu modern monoküler derinlik tahmini sistemi, veriden karmaşık kalıpları öğrenebilen birçok katmanlı sinir ağlarını ifade eden derin öğrenmeyi kullanır. Bu modeller doğrudan görüntülerden derinliği tahmin etmeyi öğrenir ve derinlik haritaları üretir.

Birçok yaklaşım, kenarlar ve şekiller gibi kalıpları tespit ederek görüntüleri işlemek için tasarlanmış bir sinir ağı türü olan convolutional neural networks (CNNs) kullanılarak oluşturulmuştur. Bu modeller genellikle bir enkoder-dekoder kurulumu kullanır: enkoder görüntüden görsel özellikleri çıkarır ve dekoder bu özellikleri bir derinlik haritasına dönüştürür. Görüntüyü birden fazla ölçekte işlemek, modelin sahnenin genel düzenini yakalamasına yardımcı olurken aynı zamanda net nesne sınırlarını da yakalamasını sağlar.

Daha yeni modeller, görüntünün farklı bölümleri arasındaki ilişkileri anlamaya odaklanır. Transformer tabanlı ve Vision Transformer (ViT) modelleri, modelin görüntünün hangi bölgelerinin en alakalı olduğunu belirlemesine ve uzak alanları birbiriyle ilişkilendirmesine olanak tanıyan dikkat mekanizmaları kullanır. Bu, modelin tüm sahnede daha tutarlı bir derinlik anlayışı oluşturmasına yardımcı olur.

Bazı sistemler her iki fikri de birleştirir. Hibrit CNN-Transformer modelleri, ince yerel ayrıntıları yakalamak için CNN'leri ve sahnenin küresel bağlamını modellemek için Transformer'ları kullanır. Bu genellikle doğruluğu artırsa da, genellikle daha fazla bellek ve işlem gücü gibi daha fazla hesaplama kaynağı gerektirir.

Link to this sectionDerinlik anlayışı vizyon AI sistemleri için neden önemlidir#

Monoküler derinlik tahmini hakkında bilgi edinirken, derinlik anlayışının vizyon tabanlı AI sistemlerinin neden bu kadar önemli bir parçası olduğunu merak ediyor olabilirsiniz.

Bir sistem nesnelerin ve yüzeylerin ne kadar uzakta olduğunu tahmin edebildiğinde, bir sahnenin nasıl düzenlendiğini ve farklı öğelerin birbiriyle nasıl ilişkili olduğunu daha iyi anlar. Bu tür bir mekansal farkındalık, özellikle otonom sürüş gibi gerçek dünya uygulamalarında güvenilir kararlar almak için gereklidir.

Derinlik bilgisi, diğer computer vision görevlerine de değerli bir bağlam ekler. Örneğin, Ultralytics YOLO26 gibi modeller tarafından desteklenen nesne tespiti, bir sisteme sahnede neyin mevcut olduğunu söyleyebilir ancak derinlik, bu nesnelerin kameraya ve birbirlerine göre nerede bulunduğunu cevaplamaya yardımcı olur.

Bu yetenekler birlikte, 3D haritalar oluşturma, karmaşık ortamlarda gezinme ve bir sahneyi bir bütün olarak anlama gibi çok çeşitli vizyon AI uygulamalarını mümkün kılar.

Robotlar ve otonom araçlar güvenli bir şekilde hareket etmek, engellerden kaçınmak ve değişikliklere gerçek zamanlı tepki vermek için bu bilgiye güvenirler. Örneğin, Tesla’s vision-only driving yaklaşımı, nesnelerin ne kadar uzakta olduğunu ve yolda nasıl konumlandıklarını anlamak için LiDAR yerine derinlik tahmini ile birleştirilmiş kamera görüntülerine dayanır.

Link to this sectionMonoküler derinlik tahmini modelleri nasıl çalışır#

Model mimarileri değişiklik gösterse de, çoğu monoküler derinlik tahmini modeli tek bir görüntüyü derinlik haritasına dönüştürmek için benzer bir süreç izler. İşte işin içindeki kilit adımlara kısa bir bakış:

Girdi ve ön işleme: İş akışı bir girdi görüntüsüyle başlar. Modele aktarılmadan önce orijinal görüntü genellikle yeniden boyutlandırılır, normalleştirilir ve sinir ağlarının görüntü verilerini verimli bir şekilde işlemek için kullandığı bir format olan tensöre dönüştürülür.
Özellik çıkarımı: Bir enkoder ağı, anlamlı görsel özellikleri çıkarmak için görüntüyü analiz eder. Bu özellikler dokular, nesne sınırları ve sahnenin genel düzeni gibi bilgileri yakalar. Çoğu model, hem ince detayları hem de küresel yapıyı anlayabilmeleri için birden fazla ölçekte çalışır.
Derinlik muhakemesi: Çıkarılan özellikleri kullanarak model, sahnedeki mekansal ilişkiler hakkında akıl yürütmek için yerel detayları küresel bağlamla birleştirir. Bu aşamada, görüntünün hangi bölgelerinin kameraya daha yakın, hangilerinin daha uzak olduğunu öğrenir.
Derinlik haritası oluşturma: Bir dekoder daha sonra bu bilgiyi yoğun bir derinlik haritasına dönüştürür. Görüntüdeki her piksele, doğruluğu ve tutarlılığı artırmak için genellikle farklı ölçeklerden gelen tahminler harmanlanarak bir derinlik değeri atanır.

Link to this sectionMonoküler derinlik tahmini modelleri nasıl eğitilir#

Az önce tartıştığımız süreç, halihazırda eğitilmiş veya önceden eğitilmiş bir modelimiz olduğunu varsayar. Ancak bir monoküler derinlik tahmini modelini eğitmek aslında nasıl çalışır?

Eğitim, görüntü verilerinin ağ tarafından verimli bir şekilde işlenebilmesi için hazırlanmasıyla başlar. Girdi görüntüleri yeniden boyutlandırılır ve tutarlı bir ölçeğe normalleştirilir, ardından her pikseldeki mesafeyi tahmin eden bir derinlik haritası oluşturmak üzere modelden geçirilir.

Tahmin edilen derinlik haritası daha sonra, modelin tahmininin gerçek derinlikten ne kadar uzak olduğunu ölçen bir kayıp fonksiyonu kullanılarak referans derinlik verileriyle karşılaştırılır. Bu kayıp değeri, modelin mevcut hatasını temsil eder ve iyileştirme için bir sinyal sağlar.

Bir optimize edici, iç ağırlıklarını ayarlayarak modeli güncellemek için bu sinyali kullanır. Bunu yapmak için optimize edici, kaybın her bir model parametresine göre nasıl değiştiğini açıklayan gradyanı hesaplar ve bu güncellemeleri birden fazla dönem boyunca veya eğitim veri kümesinden tam geçişler boyunca tekrarlı bir şekilde uygular.

Bu yinelemeli denetimli öğrenme eğitim süreci, her güncelleme adımının ne kadar büyük olduğunu kontrol eden öğrenme oranı ve aynı anda kaç görüntünün işleneceğini belirleyen yığın boyutu gibi hiperparametreler tarafından yönlendirilir. Eğitim çok sayıda matematiksel işlem içerdiğinden, genellikle paralel hesaplama için harika olan bir grafik işlem birimi (GPU) kullanılarak hızlandırılır.

Eğitim tamamlandığında model, eğitim sırasında kullanılmayan görüntülerden oluşan bir doğrulama kümesi üzerinde standart değerlendirme metrikleri kullanılarak değerlendirilir. Bu değerlendirme, modelin yeni verilere ne kadar iyi genelleştirildiğini ölçmeye yardımcı olur.

Eğitilmiş model daha sonra yeni senaryolar için yeniden kullanılabilir veya ince ayar yapılabilir. Genel olarak, bu eğitim süreci, monoküler derinlik tahmini modellerinin, 3D yeniden oluşturma ve gerçek dünyada dağıtım gibi sonraki görevler için gerekli olan tutarlı derinlik tahminleri üretmesini sağlar.

Link to this sectionSon teknoloji modelleri ve araştırma trendlerini keşfetme#

Monoküler derinlik tahmini, modellerin sadece küçük görsel detaylar yerine tüm sahneleri anlamada daha iyi hale gelmesiyle hızla gelişti. Önceki yaklaşımlar, özellikle karmaşık ortamlarda genellikle düzensiz derinlik haritaları üretiyordu.

arXiv'de yayınlanan son araştırmalarda görüldüğü gibi yeni modeller, daha kararlı ve gerçekçi görünen derinlik tahminlerine yol açan küresel bağlama daha fazla odaklanıyor. MiDaS ve DPT gibi tanınmış modeller, çeşitli yüksek çözünürlüklü veri kümelerinden derinliği öğrenerek ve birçok sahnede iyi genelleme yaparak bu değişimi yönlendirmeye yardımcı oldu.

ZoeDepth ve Depth Anything V2 dahil olmak üzere daha yeni modeller, çok çeşitli ayarlarda güçlü performansı korurken ölçek tutarlılığını iyileştirerek bu çalışmanın üzerine inşa edilir. Bu tür bir ilerleme genellikle hem dış hem de iç mekan sahnelerini kapsayan KITTI ve NYU gibi yaygın kıyaslama veri kümeleri kullanılarak ölçülür.

Bir diğer belirgin trend ise doğruluk ile pratikliği dengelemektir. Daha küçük modeller hız için optimize edilmiştir ve uç veya mobil cihazlarda gerçek zamanlı olarak çalışabilirken, daha büyük modeller daha yüksek çözünürlüğe ve uzun menzilli derinlik doğruluğuna öncelik verir.

Link to this sectionMonoküler derinlik tahmini uygulamaları#

Bir sonraki adımda, monoküler derinlik tahmininin bir sahnenin 3D yapısı hakkında tek bir görüntüden akıl yürütmek için nasıl kullanıldığını gösteren bazı gerçek dünya örneklerini inceleyelim.

Tüm bu durumlarda, derinlik bilgisinin görsel ipuçlarından çıkarılan bir tahmin olduğunu, kesin bir ölçüm olmadığını akılda tutmak önemlidir. Bu, monoküler derinlik tahminini göreli düzeni ve mekansal ilişkileri anlamak için yararlı kılar, ancak LiDAR veya stereo sistemler gibi mesafeyi doğru bir şekilde ölçmek için tasarlanmış sensörlerin yerine geçmez.

Link to this sectionDrone tabanlı arazi haritalama ve navigasyon#

Drones genellikle ormanlar, şantiyeler, afet bölgeleri veya yoğun kentsel alanlar gibi GPS sinyallerinin güvenilmez olduğu ortamlarda çalışır. Bu koşullarda güvenli bir şekilde uçmak için çevreleyen araziyi anlamaları ve engellerin ne kadar uzakta olduğunu bilmeleri gerekir. Geçmişte bu genellikle ağırlığı, güç tüketimini ve genel maliyeti artıran LiDAR veya stereo kameralar gibi sensörlerin eklenmesini gerektiriyordu.

Monoküler derinlik tahmini daha basit bir alternatiftir. Sadece tek bir RGB kamera kullanarak, drone'lar görüntülerden derinliği tahmin edebilir ve çevrelerinin temel bir 3D anlayışını oluşturabilir. Bu, binalar, ağaçlar veya arazideki ani değişiklikler gibi engelleri tespit etmelerini ve uçuş yollarını gerçek zamanlı olarak ayarlamalarını sağlar.

Bu derinlik tahminleri, engel kaçınma, irtifa kontrolü ve güvenli iniş dahil olmak üzere temel navigasyon görevlerini destekler. Sonuç olarak, hafif drone'lar özel derinlik sensörlerine güvenmeden haritalama, denetim ve navigasyon görevlerini gerçekleştirebilir.

Drone görüntülerini analiz etmek için kullanılan monoküler derinlik tahmini

Şekil 2. Monoküler derinlik tahmini, drone görüntülerini analiz etmek için kullanılabilir (Kaynak)

Link to this sectionOtonom yarış araçları için kör noktaları doldurma#

Otonom araçlar genellikle mesafeyi ölçmek ve yolun 3D görünümünü oluşturmak için lazer darbeleri kullanan LiDAR sensörlerine büyük ölçüde güvenir. Çok doğru olmasına rağmen, LiDAR keskin yol tepeleri, dik yokuşlar, örtülme veya ani araç sapmaları ile zorlanabilir ve bazen seyrek veya eksik derinlik verileri döndürebilir.

Monoküler derinlik tahmini, LiDAR verileri eksik olduğunda bile tek bir RGB görüntüsünden yoğun derinlik bilgisi sağlayarak bu boşlukları doldurmaya yardımcı olabilir. Bir self-driving car aracının hızla bir tepeye yaklaştığını hayal edin. LiDAR ışınları tepenin ötesindeki yolu aşabilir ve ileride ne olduğu konusunda belirsizlik bırakabilir.

Bununla birlikte, kamera tabanlı derinlik tahmini, perspektif ve doku gibi görsel ipuçlarından yolun şeklini hala çıkarabilir ve LiDAR verileri sabitlenene kadar aracın güvenilir bir algı sağlamasına yardımcı olabilir. LiDAR ve monoküler derinlik tahmini birlikte, zorlu sürüş koşullarında daha kararlı bir algı ve daha güvenli bir kontrol sağlar.

Otonom yarış için monoküler derinlik tahmini kullanımının bir görselleştirmesi

Şekil 3. Otonom yarış için monoküler derinlik tahmini kullanımının bir görselleştirmesi (Kaynak)

Link to this sectionRobotik navigasyon ve engel kaçınma#

Robotlar genellikle ayrıntılı haritaların mevcut olmadığı ve koşulların sürekli değiştiği yerlerde çalıştırılır. Güvenli bir şekilde hareket etmek için çevrelerinde ne kadar boşluk olduğuna ve engellerin nerede bulunduğuna dair güvenilir bir algıya ihtiyaç duyarlar.

Monoküler derinlik tahmini, ağır veya pahalı donanımlara güvenmeden tek bir RGB kamera kullanarak bu mekansal farkındalığı sağlayabilir. Ölçek ve perspektif gibi görsel ipuçlarını öğrenerek, derinlik tahmini modelleri çevrenin yoğun derinlik haritalarını oluşturabilir. Bu, robotlara yüzeylere ve nesnelere olan uzaklık konusunda net bir görüş sağlar.

Özellikle, derinlik bilgisi object detection ve anlamsal segmentation gibi computer vision görevleriyle birleştirildiğinde, robotlar çevrelerinin daha eksiksiz bir görünümünü elde edebilirler. Nesneleri tanımlayabilir, mesafelerini anlayabilir ve hareket etmenin güvenli olduğu yerlere karar verebilirler. Bu, engel kaçınmayı, boş alan tespitini ve gerçek zamanlı yol planlamasını destekler.

Monoküler derinlik tahmini ve nesne tespiti kullanılarak nesnelerin tespiti

Şekil 4. Monoküler derinlik tahmini ve nesne tespiti kullanılarak nesnelerin tespiti (Kaynak)

Link to this sectionMonoküler derinlik tahmininin artıları ve eksileri#

İşte monoküler derinlik tahmini kullanmanın temel avantajlarından bazıları:

Hafif ve güç tasarruflu: Tek bir kamera kullanmak, özellikle mobil robotlar, drone'lar ve gömülü sistemler için önemli olan sistem ağırlığını ve güç tüketimini azaltır.
Sensör füzyonu dostu: Monoküler derinlik, boşlukları doldurarak veya yedeklilik sağlayarak LiDAR veya radar gibi diğer sensörleri tamamlayabilir.
Birçok ortamda çalışır: Aynı kamera tabanlı yaklaşım, donanım değişikliği gerektirmeden iç mekanlarda, dış mekanlarda ve farklı platformlarda kullanılabilir.

Monoküler derinlik tahmini net faydalar sunsa da, dikkate alınması gereken bazı sınırlamalar şunlardır:

Aktif sensörlerden daha düşük doğruluk: Hızla gelişse de, monoküler derinlik tahmini genellikle kontrollü koşullarda LiDAR veya yapılandırılmış ışık sensörlerinin mutlak doğruluğuna ulaşamaz.
Aydınlatma koşullarına duyarlılık: Düşük ışıklı ortamlarda, güçlü gölgelerde, parlamalarda veya zayıf dokulu sahnelerde performans düşebilir.
Genelleme zorlukları: Bir ortamda eğitilen bir model, uyum sağlama veya ince ayar yapılmadan görülmemiş alanlara her zaman güvenilir bir şekilde aktarılamayabilir.

Link to this sectionMonoküler derinlik tahminine ne zaman güvenilmemeli#

Monoküler derinlik tahmini ilginç bir araştırma alanı olsa da, pratikte nerede kullanılabileceğini ve nerede kullanılamayacağını anlamak önemlidir. Ürettiği mesafeler, modelin bir görüntüde gördüklerine dayalı tahminlerdir, gerçek dünyadan alınan kesin ölçümler değildir.

Bu nedenle, sonuçların kalitesi aydınlatma, sahne karmaşıklığı ve sahnenin modelin eğitildiği şeye ne kadar benzediği gibi faktörlere bağlı olarak değişebilir. Monoküler derinlik tahmini genellikle neyin yakın neyin uzak olduğunu söylemede iyidir, ancak tam mesafelerin gerekli olduğu durumlarda güvenilir değildir.

Güvenlik açısından kritik sistemler, endüstriyel denetim veya nesnelerle çok hassas bir şekilde etkileşime girmesi gereken robotlar gibi hassasiyetin gerçekten önemli olduğu durumlarda derinliğin doğrudan ölçülmesi gerekir. LiDAR, radar, stereo kameralar veya yapılandırılmış ışık sistemleri gibi sensörler bunun için tasarlanmıştır ve çok daha güvenilir mesafe bilgisi sağlar.

Monoküler derinlik tahmini, görsel olarak zor koşullarda da zorlanabilir. Kötü aydınlatma, güçlü gölgeler, yansıtıcı veya şeffaf yüzeyler, sis, duman veya çok az görsel dokuya sahip sahneler, derinlik tahminlerini daha az güvenilir hale getirebilir. Uzun mesafelerde derinliği tahmin etmek, özel sensörlerin genellikle daha iyi çalıştığı başka bir durumdur.

Gerçek dünya çözümleri söz konusu olduğunda, monoküler derinlik kestirimi bağımsız bir çözüm olmaktan ziyade destekleyici bir araç olarak en iyi şekilde çalışır. Yararlı uzamsal bağlam ekleyebilir, diğer sensörler sınırlı olduğunda boşlukları doldurmaya yardımcı olabilir ve genel sahne anlayışını geliştirebilir. Ancak doğruluk, güvenlik veya katı güvenilirlik gereksinimlerinin önemli olduğu durumlarda tek derinlik bilgisi kaynağı olmamalıdır.

Link to this sectionÖne çıkanlar#

Monoküler derinlik kestirimi, makinelerin yalnızca tek bir kamera görüntüsü kullanarak nesnelerin ne kadar uzakta olduğunu tahmin etmesini sağlayan bir bilgisayarlı görü tekniğidir. Perspektif, nesne boyutu, doku ve gölgelendirme gibi görsel ipuçlarını öğrenerek bu yapay zeka modelleri, LiDAR veya stereo kameralar gibi sensörlere güvenmeden bir sahnenin 3D yapısını çıkarabilir. Bu, monoküler derinlik kestirimini otonom sürüş, robotik ve 3D sahne anlayışı gibi uygulamalar için uygun maliyetli ve ölçeklenebilir bir yaklaşım haline getirir.

Vision AI hakkında daha fazla bilgi edinmek için GitHub repository sayfamızı ziyaret et ve community kısmımıza katıl. AI in robotics ve computer vision in manufacturing hakkında bilgi edinmek için çözüm sayfalarımıza göz at. Bilgisayarlı görü ile çalışmaya başlamak için our licensing options sayfalarını keşfet!

Explore solutions

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin

Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin