Görme Yapay Zekasında Görüntü Eşleştirme?

Bir tablo ve bir araba fotoğrafı gibi aynı nesnenin iki resmine baktığınızda, ortak noktalarını fark etmek kolaydır. Ancak makineler için bu o kadar basit değildir.

Bu tür karşılaştırmalar yapmak için makineler, görsel bilgileri yorumlamalarına ve anlamalarına yardımcı olan bir yapay zeka (AI) dalı olan bilgisayar görüşüne güvenirler. Bilgisayar görüşü, sistemlerin nesneleri detect , sahneleri anlamasını ve görüntülerden veya videolardan desenler çıkarmasını sağlar.

Özellikle, bazı görsel görevler tek bir görüntüyü analiz etmenin ötesine geçer. Benzerlikleri bulmak, farklılıkları tespit etmek veya zaman içindeki değişiklikleri track için görüntüleri karşılaştırmayı içerirler.

Görme yapay zekası geniş bir dizi tekniği kapsar ve görüntü eşleştirme olarak bilinen temel bir yetenek, ışık, açılar veya arka planlar değişse bile görüntüler arasındaki benzerlikleri belirlemeye odaklanır. Bu teknik robotik, artırılmış gerçeklik ve coğrafi haritalama gibi çeşitli uygulamalarda kullanılabilir.

Bu makalede, görüntü eşleştirmenin ne olduğunu, temel tekniklerini ve bazı gerçek dünya uygulamalarını keşfedeceğiz. Hadi başlayalım!

Görüntü eşleştirme nedir?

Görüntü eşleştirme, bir bilgisayar sisteminin iki görüntünün benzer içeriğe sahip olup olmadığını anlamasını mümkün kılar. İnsanlar bunu şekilleri, renkleri ve desenleri fark ederek sezgisel olarak yapabilirler.

Öte yandan bilgisayarlar sayısal verilere dayanır. Dijital bir görüntünün en küçük birimi olan her bir pikseli inceleyerek görüntüleri analiz ederler.

Her görüntü piksellerden oluşan bir ızgara olarak saklanır ve her piksel tipik olarak kırmızı, yeşil ve mavi (RGB) değerlerini içerir. Bir görüntü döndürüldüğünde, yeniden boyutlandırıldığında, farklı bir açıdan görüntülendiğinde veya farklı ışık koşulları altında çekildiğinde bu değerler değişebilir. Bu değişimler nedeniyle görüntüleri piksel piksel karşılaştırmak genellikle güvenilir değildir.

Karşılaştırmaları daha tutarlı hale getirmek için görüntü eşleştirme, bir görüntü biraz değiştiğinde bile sabit kalma eğiliminde olan yerel özelliklere veya köşelere, kenarlara ve dokulu bölgelere odaklanır. Bir sistem, bu özellikleri veya kilit noktaları birden fazla görüntüde tespit ederek bunları çok daha yüksek doğrulukla karşılaştırabilir.

Bu süreç navigasyon, lokalizasyon, artırılmış gerçeklik, haritalama, 3D rekonstrüksiyon ve görsel arama gibi kullanım alanlarında yaygın olarak kullanılmaktadır. Sistemler farklı görüntülerde veya birden fazla karede aynı noktaları belirlediğinde hareketi track , sahne yapısını anlayabilir ve dinamik ortamlarda güvenilir kararlar verebilir.

Şekil 1. Benzer anahtar noktaların belirlendiği bir araba görüntüsü eşleştirme örneği.(Kaynak)

‍

Görüntü eşleştirmenin nasıl çalıştığını anlama

Görüntü eşleştirme, sistemlerin görüntülerdeki benzer bölgeleri tanımlamasına ve karşılaştırmasına yardımcı olan birkaç temel adım içerir. Her adım farklı koşullar altında doğruluğu, tutarlılığı ve sağlamlığı artırır.

İşte görüntü eşleştirmenin nasıl çalıştığına adım adım bir bakış:

Özellik algılama: Sistem ilk olarak bir görüntüde ışık, ölçek veya görüş açısı değiştiğinde bile sabit kalan ayırt edici kilit noktaları tanımlar. Bunlar görsel olarak öne çıkan köşeler, kenarlar veya dokulu bölgeler gibi alanları vurgular.
Özellik açıklaması: Her bir anahtar nokta daha sonra o noktanın etrafındaki görsel örüntüyü yakalayan kompakt bir sayısal vektör olan bir tanımlayıcıya dönüştürülür. Bu tanımlayıcılar, farklı görüntüler arasındaki özellikleri karşılaştırmak için güvenilir bir yol sağlar.
Özellik eşleştirme: İki görüntüden alınan tanımlayıcılar, ne kadar benzer olduklarını hesaplayan eşleştirme algoritmaları kullanılarak karşılaştırılır. Bu adım, karşılık geliyor gibi görünen anahtar noktaları eşleştirir ve daha zayıf veya güvenilmez eşleşmeleri filtreler.
Geometrik doğrulama: Son olarak, sistem eşleşen anahtar noktaların gerçekçi bir geometrik ilişki oluşturup oluşturmadığını kontrol eder. RANSAC (Random Sample Consensus) olarak bilinen ve yalnızca güvenilir nokta çiftlerinin tutulmasını sağlayan bir yöntem kullanarak yanlış eşleşmeleri (aykırı değerler olarak adlandırılır) kaldırır. İyi eşleşmeler belirlendikten sonra, sistem iki görüntüyü en iyi şekilde ilişkilendiren dönüşümü tahmin eder. Bu genellikle ölçekleme, döndürme ve kaydırma gibi değişiklikleri ayarlayan bir afin dönüşümü veya perspektif değişikliklerini de işleyebilen bir homografidir. Bu dönüşümlerin kullanılması, biraz farklı bakış açılarından çekilmiş olsalar bile sistemin görüntüleri doğru bir şekilde hizalamasını sağlar.

Şekil 2. (a) Özellik noktası çıkarma ve (b) özellik eşleştirme.(Kaynak)

‍

Görüntü eşleştirmede kullanılan temel teknikler

Görüntü eşleştirmenin gerçek dünyadaki uygulamalarını keşfetmeden önce, bilgisayarla görme sistemlerinde kullanılan görüntü eşleştirme tekniklerine daha yakından bakalım.

Şablon eşleştirme tabanlı görüntü eşleştirme

Şablon eşleştirme en basit görüntü eşleştirme yöntemlerinden biridir. Doğrudan piksel karşılaştırmalarına dayandığı ve daha derin görsel özellikler çıkarmadığı için genellikle modern bir bilgisayarla görme yönteminden ziyade bir görüntü işleme tekniği olarak kabul edilir.

Daha büyük bir sahne içinde daha küçük bir referans görüntüsünü veya şablonu bulmak için kullanılır. Bir şablonu ana görüntü boyunca kaydıran ve iki bölgenin ne kadar yakın eşleştiğini ölçmek için her konumda bir benzerlik puanı hesaplayan bir algoritma kullanarak çalışır. En yüksek puana sahip alan en iyi eşleşme olarak kabul edilir ve nesnenin sahnede görünme olasılığının en yüksek olduğu yeri gösterir.

Şekil 3. Şablon eşleştirme kullanımına bir bakış.(Kaynak)

‍

Bu teknik, nesnenin ölçeği, dönüşü ve aydınlatması tutarlı kaldığında iyi çalışır, bu da onu kontrollü ortamlar veya temel karşılaştırmalar için iyi bir seçim haline getirir. Ancak nesne şablondan farklı göründüğünde, örneğin boyutu değiştiğinde, döndürüldüğünde, kısmen örtüldüğünde veya gürültülü ya da karmaşık bir arka planda göründüğünde performansı düşer.

Görüntü eşleştirme için klasik özellik tabanlı teknikler

Derin öğrenme yaygın olarak benimsenmeden önce, görüntü eşleştirme çoğunlukla bir görüntüdeki ayırt edici kilit noktaları tespit eden klasik bilgisayarla görme algoritmalarına dayanıyordu. Bu yöntemler, her pikseli karşılaştırmak yerine, köşeleri, kenarları ve öne çıkan dokulu bölgeleri vurgulamak için görüntü gradyanlarını veya yoğunluktaki değişiklikleri analiz eder.

Tespit edilen her bir anahtar nokta daha sonra tanımlayıcı adı verilen kompakt bir sayısal özet kullanılarak temsil edilir. İki görüntüyü karşılaştırırken, bir eşleştirici en benzer çiftleri bulmak için bu tanımlayıcıları değerlendirir.

Güçlü bir benzerlik puanı genellikle aynı fiziksel noktanın her iki görüntüde de göründüğünü gösterir. Eşleştiriciler ayrıca özelliklerin ne kadar yakın hizalandığına karar vermek için belirli mesafe ölçümleri veya puanlama kuralları kullanarak genel güvenilirliği artırır.

Görüntü eşleştirme için kullanılan bazı temel klasik bilgisayarla görme algoritmaları aşağıda verilmiştir:

SIFT (Scale-Invariant Feature Transform): Görüntü yoğunluğu gradyanlarını analiz ederek anahtar noktaları tanımlar ve bir görüntü büyütüldüğünde, küçültüldüğünde veya döndürüldüğünde tanınabilir kalmalarını sağlar.
SURF (Hızlandırılmış Sağlam Özellikler): Bu algoritma SIFT'e benzer ancak hız için optimize edilmiştir. Gradyan tabanlı işlemlerin hızlı yaklaşımlarını kullanır, bu da onu hızlı yanıt süreleri gerektiren uygulamalar için uygun hale getirir.

ORB (Yönlendirilmiş FAST ve Döndürülmüş BRIEF): FAST ve BRIEF adlı iki algoritmayı bir araya getirir. FAST, bir görüntüdeki köşe benzeri noktaları hızla bulurken BRIEF, görüntüler arasında eşleştirilebilmeleri için her noktanın kompakt bir tanımını oluşturur. ORB ayrıca döndürme işlemini ekleyerek her iki adımı da geliştirir, hızlı ve güvenilir hale getirir.

Şekil 4. SURF özellik noktaları çıkarılır ve iki görüntü arasında eşleştirilir.(Kaynak)

‍

Görüntü eşleştirme için derin öğrenme tabanlı teknikler

Belirli kurallara dayanan klasik yöntemlerin aksine derin öğrenme, yapay zeka modellerinin kalıpları öğrendiği görsel veri koleksiyonları olan büyük veri kümelerinden özellikleri otomatik olarak öğrenir. Bu modeller genellikle büyük görüntü gruplarını işlemek ve karmaşık sinir ağlarını verimli bir şekilde eğitmek için gereken yüksek hesaplama gücünü sağlayan GPU'larda (Grafik İşlem Birimleri) çalışır.

Bu, yapay zeka modellerine aydınlatma, kamera açıları ve oklüzyonlar gibi gerçek dünyadaki değişikliklerle başa çıkma yeteneği kazandırır. Bazı modeller ayrıca tüm adımları tek bir iş akışında birleştirerek zorlu koşullarda sağlam performansı destekler.

Görüntü özelliği çıkarma ve eşleştirme için bazı derin öğrenme tabanlı yaklaşımlar aşağıda verilmiştir:

CNN tabanlı özellik çıkarma: Bu modeller, büyük veri kümelerinden temel görsel kalıpları otomatik olarak öğrenir. Değişme olasılığı düşük olan özellikleri tanıyarak farklı sahnelerdeki nesneleri eşleştirmek için güvenilir hale getirirler.
‍
Gömme tabanlı eşleştirme: Bu yöntem, pikselleri doğrudan karşılaştırmak yerine görüntüleri gömme olarak bilinen kompakt sayısal temsillere dönüştürür. Eşleştirici daha sonra benzer görselleri bulmak için bu katıştırmaları karşılaştırır. Yüzleri tanımak ve karşılaştırmak için katıştırmalar oluşturan FaceNet ve görüntü arama ve anlamsal eşleştirme gibi görevler için görüntüleri ve metinleri ortak bir alanda eşleştiren CLIP gibi modeller bu yaklaşımı izler.

Uçtan uca eşleştirme işlem hatları: Son teknoloji derin öğrenme sistemleri genellikle anahtar nokta algılama, tanımlama ve eşleştirmeyi birleşik bir iş akışında birleştirir. SuperPoint ve D2-Net gibi modeller hem anahtar noktaları hem de tanımlayıcıları doğrudan CNN özellik haritalarından öğrenirken, SuperGlue bu tanımlayıcıları geleneksel yöntemlerden daha güvenilir bir şekilde eşleştiren öğrenilmiş bir eşleştirici görevi görür. Bu bileşenler birlikte, klasik özellik tabanlı yaklaşımlara göre zorlu koşullarda daha yüksek doğruluk ve daha fazla sağlamlık sağlayan uçtan uca bir işlem hattı oluşturur.
‍
Transformatör tabanlı eşleştirme: Bu yöntem, iki görüntüde karşılık gelen bölgeleri birbirine bağlamak için dikkat mekanizmalarını kullanır ve güçlü bakış açısı, aydınlatma veya doku değişiklikleri altında bile yamaları hizalamasına olanak tanır. LoFTR (Yerel Özellik Dönüştürücüsü) gibi modeller çok daha yüksek doğruluk elde eder çünkü Dönüştürücünün küresel alıcı alanı, geleneksel dedektörlerin başarısız olduğu düşük dokulu, bulanık veya tekrarlayan alanlarda güvenilir eşleştirme sağlar. LoFTR yarı yoğun, yüksek güvenirlikli eşleşmeler üretir ve hem iç hem de dış mekan kıyaslamalarında önceki son teknoloji yöntemlerden büyük bir farkla daha iyi performans gösterir.
‍
Verimlilik odaklı modeller: Yeni görüntü eşleştirme modelleri daha hızlı çalışırken yüksek doğruluk sunmayı amaçlamaktadır. LightGlue gibi modeller, iyi eşleştirme kalitesini korurken sınırlı bilgi işlem gücüne sahip cihazlarda verimli bir şekilde çalışacak şekilde tasarlanmıştır.

Görüntü eşleştirmenin gerçek dünya uygulamaları

Artık görüntü eşleştirmenin nasıl çalıştığını daha iyi anladığımıza göre, önemli bir rol oynadığı bazı gerçek dünya uygulamalarına bakalım.

Görüntü eşleştirme ile çalışan daha akıllı robotlar

Robotlar genellikle hangi nesnelerin mevcut olduğunu ve nasıl yerleştirildiklerini anlamaları gereken yoğun ve değişken ortamlarda çalışırlar. Görüntü eşleştirme, robotların gördükleri nesneleri depolanan veya referans görüntülerle karşılaştırarak anlamalarına yardımcı olabilir. Bu sayede robotların nesneleri tanıması, hareketlerini track etmesi ve aydınlatma ya da kamera açıları değiştiğinde bile uyum sağlaması kolaylaşır.

Örneğin, bir depoda, robotik bir al ve yerleştir sistemi, farklı öğeleri tanımlamak ve işlemek için görüntü eşleştirmeyi kullanabilir. Robot önce bir nesneyi yakalar, ardından tanımlamak için görüntüsünü referans örneklerle karşılaştırır.

Şekil 5. Bir robot, nesneleri referans görüntülerle eşleştirerek tanır ve alır.(Kaynak)

‍

Eşleşme bir kez bulunduğunda, robot onu nasıl doğru şekilde sıralayacağını veya yerleştireceğini bilir. Bu yaklaşım, robotların tüm sistemi yeniden eğitmeden hem tanıdık hem de yeni nesneleri tanımasını sağlar. Ayrıca rafları düzenlemek, parçaları bir araya getirmek veya öğeleri yeniden düzenlemek gibi daha iyi gerçek zamanlı kararlar almalarına yardımcı olur.

Daha iyi görüntü eşleştirme ile 3D rekonstrüksiyonun iyileştirilmesi

Drone haritalama, sanal gerçeklik ve bina denetimi gibi alanlarda, sistemlerin genellikle birden fazla 2D görüntüden bir 3D modeli yeniden yapılandırması gerekir. Bunu yapmak için, çeşitli görüntülerde görünen köşeler veya dokulu bölgeler gibi ortak kilit noktaları tanımlamak için görüntü eşleştirmeye güvenirler.

Bu ortak noktalar, sistemin görüntülerin 3D uzayda birbirleriyle nasıl ilişkili olduğunu anlamasına yardımcı olur. Bu fikir, farklı bakış açılarından çekilen görüntülerdeki kilit noktaları belirleyip eşleştirerek 3B yapılar oluşturan bir teknik olan Hareketten Yapı (SfM) ile yakından ilgilidir.

Eşleştirme doğru değilse, ortaya çıkan 3D model bozuk veya eksik görünebilir. Bu nedenle, araştırmacılar 3D yeniden yapılandırma için görüntü eşleştirmenin güvenilirliğini artırmak için çalışmaktadır ve son gelişmeler umut verici sonuçlar göstermiştir.

İlginç bir örnek, daha hızlı ve daha sağlam bir görüntü eşleştirme algoritması olan HashMatch'tir. HashMatch, görüntü ayrıntılarını hash kodları adı verilen kompakt desenlere dönüştürerek, aydınlatma veya bakış açıları değiştiğinde bile doğru eşleşmeleri belirlemeyi ve aykırı değerleri kaldırmayı kolaylaştırır.

Büyük ölçekli veri kümeleri üzerinde test edildiğinde, HashMatch daha az hizalama hatası ile daha temiz ve daha gerçekçi 3B yeniden yapılandırma modelleri üretti. Bu da onu özellikle drone haritalama, AR sistemleri ve hassasiyetin kritik olduğu kültürel mirasın korunması gibi uygulamalar için kullanışlı hale getiriyor.

Artırılmış gerçeklikte görüntü eşleştirmenin rolü

Artırılmış gerçeklik (AR) söz konusu olduğunda, sanal nesneleri gerçek dünyayla aynı hizada tutmak genellikle zorlu bir iştir. Dış ortamlar, güneş ışığı ve hava durumu gibi çevresel koşullara bağlı olarak sürekli değişebilir. Gerçek dünyadaki ince farklılıklar, sanal öğelerin dengesiz veya hafifçe yerinden çıkmış görünmesine neden olabilir.

Bu sorunu çözmek için, AR sistemleri çevrelerini yorumlamak için görüntü eşleştirmeyi kullanır. Canlı kamera karelerini depolanan referans görüntülerle karşılaştırarak, kullanıcının nerede olduğunu ve sahnenin nasıl değiştiğini anlayabilirler.

Şekil 6. İki görüntü arasında eşleşen özellik noktaları. (Kaynak: theijes.com)

‍

Örneğin, XR (Genişletilmiş Gerçeklik) gözlükleriyle askeri tarzda açık hava AR eğitimini içeren bir çalışmada, araştırmacılar gerçek ve referans görüntüler arasındaki görsel ayrıntıları eşleştirmek için SIFT ve diğer özellik tabanlı yöntemleri kullandılar. Doğru eşleşmeler, kullanıcı hızlı hareket ettiğinde veya aydınlatma değiştiğinde bile sanal öğelerin gerçek dünyayla doğru şekilde hizalanmasını sağladı.

Önemli çıkarımlar

Görüntü eşleştirme, bilgisayarla görmenin temel bir bileşenidir ve sistemlerin farklı görüntülerin birbiriyle nasıl ilişkili olduğunu veya bir sahnenin zaman içinde nasıl değiştiğini anlamasını sağlar. Robotik, artırılmış gerçeklik, 3D yeniden yapılandırma, otonom navigasyon ve hassasiyet ve istikrarın gerekli olduğu diğer birçok gerçek dünya uygulamasında kritik bir rol oynar.

SuperPoint ve LoFTR gibi gelişmiş yapay zeka modelleriyle, günümüz sistemleri önceki yöntemlerden çok daha sağlam hale geliyor. Makine öğrenimi teknikleri, özel görüntü modülleri, sinir ağları ve veri kümeleri gelişmeye devam ettikçe, görüntü eşleştirme muhtemelen daha hızlı, daha doğru ve daha uyarlanabilir hale gelecektir.

Büyüyen topluluğumuza katılın ve uygulamalı yapay zeka kaynakları için GitHub depomuzu keşfedin. Vision AI ile bugün inşa etmek için lisanslama seçeneklerimizi keşfedin. Çözüm sayfalarımızı ziyaret ederek tarımda yapay zekanın çiftçiliği nasıl dönüştürdüğünü ve sağlık hizmetlerinde Vision AI 'ın geleceği nasıl şekillendirdiğini öğrenin.

Vision AI'da görüntü eşleştirme nedir? Hızlı bir giriş

Görüntü eşleştirme nedir?

Görüntü eşleştirmenin nasıl çalıştığını anlama

Görüntü eşleştirmede kullanılan temel teknikler

Şablon eşleştirme tabanlı görüntü eşleştirme

Görüntü eşleştirme için klasik özellik tabanlı teknikler

Görüntü eşleştirme için derin öğrenme tabanlı teknikler

Görüntü eşleştirmenin gerçek dünya uygulamaları

Görüntü eşleştirme ile çalışan daha akıllı robotlar

Daha iyi görüntü eşleştirme ile 3D rekonstrüksiyonun iyileştirilmesi

Artırılmış gerçeklikte görüntü eşleştirmenin rolü

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Monoküler derinlik tahmini nedir? Genel bakış

Görüntü işleme nedir? Kısa bir giriş

Şablon eşleştirme nedir? Hızlı kılavuz

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Vision AI'da görüntü eşleştirme nedir? Hızlı bir giriş

Görüntü eşleştirme nedir?

Görüntü eşleştirmenin nasıl çalıştığını anlama

Görüntü eşleştirmede kullanılan temel teknikler

Şablon eşleştirme tabanlı görüntü eşleştirme

Görüntü eşleştirme için klasik özellik tabanlı teknikler

Görüntü eşleştirme için derin öğrenme tabanlı teknikler

Görüntü eşleştirmenin gerçek dünya uygulamaları

Görüntü eşleştirme ile çalışan daha akıllı robotlar

Daha iyi görüntü eşleştirme ile 3D rekonstrüksiyonun iyileştirilmesi

Artırılmış gerçeklikte görüntü eşleştirmenin rolü

Önemli çıkarımlar

Bu kategoride daha fazla okuyun

Monoküler derinlik tahmini nedir? Genel bakış

Görüntü işleme nedir? Kısa bir giriş

Şablon eşleştirme nedir? Hızlı kılavuz

Gelin, yapay zekanın geleceğini birlikte inşa edelim!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!