Yolo Vision Shenzhen
Shenzhen
Şimdi katılın

Anında kullanılabilir kavram segmentasyonunu anlama

Hızlı kavram segmentasyonunu, geleneksel yöntemlerden farkını ve YOLOE-26 gibi ilgili modellerin açık sözlük yeteneklerini nasıl mümkün kıldığını keşfedin.

Görme yapay zekası hızla gelişmekte ve gerçek dünya ortamlarında görüntü ve videoları analiz etmek için yaygın olarak kullanılmaktadır. Örneğin, trafik yönetim sistemlerinden perakende analitiğine kadar uzanan uygulamalar bilgisayar görme modelleriyle entegre edilmektedir.

Bu uygulamaların çoğunda, nesne algılama modelleri gibi görme modelleri, araçlar, insanlar ve ekipmanlar dahil olmak üzere önceden tanımlanmış bir nesne kümesini tanımak üzere eğitilir. Eğitim sırasında, bu modellere birçok etiketli örnek gösterilir, böylece her nesnenin nasıl göründüğünü ve bir sahnedeki diğer nesnelerden nasıl ayırt edileceğini öğrenebilirler.

Segmentasyon görevleri için modeller, bu nesnelerin etrafında hassas piksel düzeyinde konturlar oluşturarak bir adım daha ileri gider. Bu, sistemlerin bir görüntüdeki her nesnenin tam olarak nerede olduğunu anlamasını sağlar.

Bu, sistemin yalnızca eğitildiği şeyleri tanıması gerektiği sürece iyi sonuç verir. Ancak gerçek dünya ortamlarında bu durum nadiren geçerlidir. 

Görsel sahneler genellikle dinamiktir. Yeni nesneler ve görsel kavramlar ortaya çıkar, koşullar değişir ve kullanıcılar genellikle orijinal eğitim kurulumunun bir parçası olmayan segment isterler.

Bu sınırlamalar, segmentasyon söz konusu olduğunda özellikle belirgindir. Vision AI gelişmeye devam ettikçe, tekrar tekrar yeniden eğitim gerektirmeden yeni kavramlara uyum sağlayabilen daha esnek segmentasyon modellerine olan ihtiyaç da artmaktadır. Bu nedenle, promptable concept segmentation (PCS) dikkat çekmeye başlamıştır.

Kullanıcılar, sabit bir nesne kategorileri listesine güvenmek yerine, metin, görsel ipuçları veya örnek görüntüler segment istediklerini tanımlayabilirler. Bu modeller daha sonra, eğitim sırasında açıkça dahil edilmemiş olsa bile, tanımlanan kavramla eşleşen segment bölgeleri tanımlayabilir ve segment .

Bu makalede, promptable kavram segmentasyonunun nasıl çalıştığını, geleneksel yaklaşımlardan nasıl farklı olduğunu ve günümüzde nerede kullanıldığını inceleyeceğiz.

Promptable kavram segmentasyonu nedir?

Çoğu durumda, segmentasyon modelleri kısa bir nesne türü listesini tanımak üzere eğitilir. Bu, bir Vision AI sisteminin yalnızca belirli segment nesne kümesini detect segment gerektiğinde iyi sonuç verir.

Ancak gerçek dünya uygulamalarında görsel sahneler dinamiktir. Yeni nesneler ortaya çıkar, görev gereksinimleri değişir ve kullanıcılar genellikle orijinal etiket kümesinde yer almayan segment zorunda kalır. Bu durumları desteklemek genellikle yeni yüksek kaliteli veriler ve açıklamalar toplamak ve modeli yeniden eğitmek anlamına gelir, bu da maliyeti artırır ve dağıtımı yavaşlatır.

Promptable kavram segmentasyonu, kullanıcıların sabit bir etiket listesinden seçim yapmak yerine modele neyi araması gerektiğini söylemesine olanak tanıyarak bu sorunu çözer. Kullanıcılar aradıkları nesneyi veya fikri tanımlar ve model, görüntüdeki tüm eşleşen alanları vurgular. Bu, kullanıcının niyetini görüntünün gerçek pikselleriyle ilişkilendirmeyi çok daha kolay hale getirir.

Şekil 1. Segmentasyon için kavram istemlerinin kullanımına bir bakış (Kaynak)

Farklı türde istemlerle segmentasyonu yönlendirme

Hızlı kavram segmentasyonunu destekleyen modeller, farklı türde girdileri kabul edebildikleri için esnektir. Başka bir deyişle, modele neyi araması gerektiğini söylemenin birden fazla yolu vardır; örneğin metin açıklamaları, görsel ipuçları veya örnek görüntüler gibi.

Her bir yaklaşıma daha yakından bakalım:

  • Metin istemleri: "Okul otobüsü" veya "tümör bölgesi" gibi kısa ifadeler, segment kavramı tanımlamak için kullanılabilir. Model, kelimelerin anlamını yorumlar ve eşleşen bölgeleri belirler.
  • Görsel ipuçları: Bu ipuçları, görüntü içindeki noktalar, kutular veya kabaca çizilmiş eskizleri ipucu olarak kullanır. Bu ipuçları, nereye bakılması gerektiğini gösterir ve nihai sınırın şekillenmesine yardımcı olur.
  • Görüntü örnekleri: Referans görüntüler veya küçük kırpıntılar ilgi konusu kavramı temsil eder. Model, görsel olarak benzer bölgeleri arar ve görsel görünümlerine göre bunları segmentlere ayırır.

PCS ile geleneksel segmentasyon arasındaki fark

Promptable kavram segmentasyonunun nasıl çalıştığını incelemeden önce, onu çeşitli geleneksel nesne segmentasyon yöntemleriyle karşılaştıralım.

PCS, açık sözlük ve komut tabanlı modelleri mümkün kılar. Komutlar aracılığıyla açıklanan yeni fikirlerle çalışabilir, ancak geleneksel segmentasyon bunu yapamaz. Geleneksel segmentasyon yaklaşımlarının birkaç farklı türü vardır ve her birinin kendine özgü varsayımları ve sınırlamaları vardır.

İşte geleneksel segmentasyonun bazı temel türlerine bir bakış:

  • Anlamsal segmentasyon: Görüntüdeki her piksel, yol, bina veya kişi gibi bir kategorinin parçası olarak etiketlenir. Aynı etikete sahip tüm pikseller bir araya getirilir, böylece model tek tek nesne örneklerini ayırmaz.
  • Örnek segmentasyonu: Model, tek tek nesneleri tanımlar ve segmentlere ayırır, böylece iki kişi veya iki araba ayrı nesneler olarak ele alınır. 
  • Panoptik segmentasyon: Bu teknik, semantik ve örnek segmentasyonu birleştirerek sahnenin hem arka plan bölgelerini hem de tek tek nesneleri kapsayan eksiksiz bir görünüm sağlar. 

Tüm bu yaklaşımlar önceden tanımlanmış nesne kategorileri listesine dayanır. Bu kapsam içinde iyi çalışırlar, ancak kapsam dışındaki kavramları çok iyi işleyemezler. Yeni bir nesnenin segmentlere ayrılması gerektiğinde, genellikle ek eğitim verileri ve model ince ayarları gerekir.

PCS bunu değiştirmeyi amaçlamaktadır. Önceden tanımlanmış kategorilere bağlı kalmak yerine, çıkarım sırasında bir segment istediğiniz şeyi tanımlamanıza olanak tanır.

PCS modellerinin evrimi

Şimdi, segmentasyon modellerinin nasıl promptable concept segmentation (uyarılabilir kavram segmentasyonu) yönünde geliştiğini inceleyelim.

Segmentasyonda bir değişime yol açan popüler bir temel model SAMveya Segment Anything Model (Her Şeyi Segmentlere Ayırma Modeli) idi. Bu model 2023 yılında tanıtıldı. SAM , önceden tanımlanmış nesne kategorilerine dayanmak yerine, kullanıcıların noktalar veya sınırlayıcı kutular gibi basit görsel ipuçları kullanarak segmentasyonu yönlendirmelerine SAM . 

SAM ile kullanıcılar artık etiket seçmek zorunda kalmıyordu. Nesnenin yerini belirtmeleri yeterliydi, model bunun için bir maske oluşturuyordu. Bu, segmentasyonu daha esnek hale getirdi, ancak kullanıcıların modele nereye bakması gerektiğini göstermeye devam etmesi gerekiyordu. 

2024 yılında piyasaya sürülen SAM , daha karmaşık sahneleri işleyerek ve komutla segmentasyonu videoya genişleterek bu fikri daha da geliştirdi. Segmentasyonu yönlendirmek için hala esas olarak görsel komutlara dayanırken, farklı aydınlatma koşulları, nesne şekilleri ve hareketler arasında sağlamlığı artırdı.

SAM modeli, bu evrimin en son adımıdır. Geçen yıl piyasaya sürülen bu model, görsel anlayışı dil rehberliği ile birleştiren ve görüntü ve video segmentasyon görevlerinde tutarlı davranış sağlayan birleşik bir modeldir. 

SAM ile kullanıcılar, işaretleme veya çizim komutlarıyla sınırlı kalmazlar. Bunun yerine, metin segment istediklerini tanımlayabilirler ve model, görüntü veya video karelerinde bu tanıma uyan bölgeleri arar. 

Segmentasyon, sabit nesne kategorilerinden ziyade kavramlar tarafından yönlendirilir ve farklı sahnelerde ve zaman içinde açık kelime dağarcığı kullanımını destekler. Aslında, SAM , Wikidata gibi kaynaklardan türetilen ve büyük ölçekli eğitim verileriyle genişletilen bir ontolojiye dayanan geniş, öğrenilmiş bir kavram alanı üzerinde çalışır.

Şekil 2. SAM tetikleme ve tek bir görüntüyü segmentlere ayırma örneği (Kaynak)

Çoğunlukla geometrik komutlara dayanan önceki sürümlerle karşılaştırıldığında, SAM daha esnek, kavram odaklı segmentasyona doğru bir adımdır. Bu, ilgi konusu nesnelerin veya fikirlerin değişebildiği ve her zaman önceden tanımlanamayabileceği gerçek dünya uygulamaları için daha uygun hale getirir.

Hızlı görsel segmentasyonun nasıl çalıştığını keşfetmek

Peki, promptable kavram segmentasyonu nasıl çalışır? Bu, büyük önceden eğitilmiş görme ve görme dili modellerine dayanır. Bu modeller, çok sayıda görüntü koleksiyonu ve çoğu durumda eşleştirilmiş metinler üzerinde eğitilmiştir. Bu eğitim, genel görsel kalıpları ve anlamsal anlamları öğrenmelerini sağlar.

Çoğu PCS modeli, farklı bölgelerin birbirleriyle nasıl ilişkili olduğunu anlamak için görüntünün tamamını bir kerede işleyen transformatör tabanlı mimariler kullanır. Görsel transformatör, görüntüden görsel özellikleri çıkarırken, metin kodlayıcı kelimeleri modelin çalışabileceği sayısal temsil biçimlerine dönüştürür.

Eğitim sırasında, bu modeller farklı türdeki denetimlerden öğrenebilirler. Bunlar arasında nesnelerin kesin sınırlarını tanımlayan piksel düzeyinde maskeler, nesnelerin yaklaşık konumlarını belirleyen sınırlayıcı kutular ve görüntüde görünenleri tanımlayan görüntü düzeyinde etiketler bulunur. Farklı türlerde etiketlenmiş veriler kullanılarak yapılan eğitim, modelin hem ince ayrıntıları hem de daha geniş görsel kavramları yakalamasına yardımcı olur.

Çıkarım zamanında, yani modelin tahminlerde kullanılacağı zaman, PCS komut istemine dayalı bir süreç izler. Kullanıcı, metin açıklamaları, noktalar veya kutular gibi görsel ipuçları veya örnek görüntüler aracılığıyla rehberlik sağlar. Model, komut istemini ve görüntüyü paylaşılan bir iç temsil veya gömülü öğelere kodlar ve açıklanan kavramla uyumlu bölgeleri tanımlar.

Bir maske kod çözücü daha sonra bu paylaşılan temsili hassas piksel düzeyinde segmentasyon maskelerine dönüştürür. Model görsel özellikleri anlamsal anlamla ilişkilendirdiğinden, eğitim sırasında açıkça dahil edilmemiş olsa bile segment kavramları segment ayırabilir.

Ayrıca, çoğu zaman çıktı, komut istemini ayarlayarak veya ek kılavuzlar ekleyerek iyileştirilebilir, bu da modelin karmaşık veya belirsiz sahneleri işlemesi için yardımcı olur. Bu yinelemeli süreç, dağıtım sırasında pratik optimizasyonu destekler.

Promptable kavram segmentasyon modelleri genellikle, segment görülmemiş kavramları ne kadar iyi segment ve farklı sahnelerde ne kadar sağlam performans gösterdikleri açısından değerlendirilir. Karşılaştırmalar genellikle maske kalitesi, genelleme ve hesaplama verimliliğine odaklanır ve gerçek dünyadaki dağıtım gereksinimlerini yansıtır.

PCS'nin gerçek hayattaki kullanım örnekleri

Şimdi, promptable kavram segmentasyonunun halihazırda kullanıldığı ve gerçek bir etki yaratmaya başladığı alanlara bakalım.

Tıbbi görüntüleme için esnek görüntü segmentasyonu

Tıbbi görüntüleme, birçok biyolojik yapı, hastalık ve tarama türünü içerir ve her gün yeni vakalar ortaya çıkar. Geleneksel segmentasyon modelleri bu çeşitliliğe ayak uydurmakta zorlanır. 

PCS, klinisyenlerin kısa ve katı bir listeden seçim yapmak yerine, bulmak istediklerini tanımlamalarına olanak tanıdığından, bu alana doğal olarak uyum sağlar. Metin ifadeleri veya görsel komutlarla PCS, her yeni görev için modeli yeniden eğitmeye gerek kalmadan, segment veya ilgili alanları doğrudan segment için kullanılabilir. Bu, çeşitli klinik ihtiyaçları karşılamayı kolaylaştırır, manuel maske çizimi ihtiyacını azaltır ve birçok görüntüleme türünde çalışır.

Bunun harika bir örneği, tıbbi görüntülemede metin komutlu PCS için SAM mimarisini uyarlayan MedSAM-3'tür. Bu model, karaciğer veya böbrek gibi organ isimleri ve tümör veya lezyon gibi lezyonla ilgili kavramlar gibi açık anatomik ve patolojik terimlerle komut verilebilir. Komut verildiğinde, model tıbbi görüntüdeki ilgili bölgeyi doğrudan segmentlere ayırır.

MedSAM-3 ayrıca hem metin hem de görüntüler üzerinde akıl yürütebilen çok modlu büyük dil modellerini (MLLM'ler veya çok modlu LLM'ler) entegre eder. Bu modeller, daha zorlu vakalarda doğruluğu artırmak için sonuçların yinelemeli olarak iyileştirildiği bir ajan döngüsü kurulumunda çalışır.

Şekil 3. Tıbbi görüntülerde metin tabanlı tümör segmentasyonu için bir MedSAM-3 boru hattı (Kaynak)

MedSAM-3, X-ray, MRI, CT, ultrason ve video verilerinde iyi performans göstererek, PCS'nin gerçek klinik ortamlarda daha esnek ve verimli tıbbi görüntüleme iş akışlarını nasıl mümkün kıldığını vurgulamaktadır.

Robotik cerrahi ve otomasyon için uyarlanabilir segmentasyon

Robotik cerrahi, track ve hızla değişen cerrahi sahneleri anlamak için görme sistemlerine dayanır. Aletler hızlı hareket eder, aydınlatma değişir ve her an yeni aletler ortaya çıkabilir, bu da önceden tanımlanmış etiket sistemlerinin sürdürülmesini zorlaştırır.

PCS ile robotlar, track edebilir, kameraları yönlendirebilir ve cerrahi adımları gerçek zamanlı olarak takip edebilir. Bu, manuel etiketlemeyi azaltır ve sistemlerin farklı prosedürlere uyum sağlamasını kolaylaştırır. Cerrahlar veya otomatik sistemler, bir görüntüde hangi bölümlerin ayrılması gerektiğini belirtmek için "kıskaç", "neşter" veya "kamera aleti" gibi metin komutlarını kullanabilir.

Şekil 4. Robotik cerrahi sırasında kullanılan cerrahi aletlerin segmentasyonu (Kaynak)

Ultralytics ile açık sözlük segmentasyonu

Promptable kavram segmentasyonu ile ilgili bir başka ilginç ve son teknoloji model ise Ultralytics modelimizdir. Modelimiz, Ultralytics YOLO ailesine açık sözlük, prompt odaklı segmentasyon özelliği getirmiştir.

YOLOE-26, Ultralytics mimarisi üzerine kurulmuştur ve açık sözlük örnek segmentasyonunu destekler. YOLOE-26, kullanıcıların segmentasyonu çeşitli şekillerde yönlendirmelerine olanak tanır. 

Kısa, görsel temelli ifadelerin hedef nesneyi belirleyebildiği metin komutlarını ve görüntü ipuçlarına dayalı ek rehberlik sağlayan görsel komutları destekler. Ayrıca YOLOE-26, modelin kullanıcı komutlarına ihtiyaç duymadan yerleşik bir sözlükten nesneleri algılayıp segmentlere ayırdığı sıfır atışlı çıkarım için komutsuz bir mod içerir.

YOLOE-26, nesne kategorilerinin değişebileceği ancak düşük gecikme süresi ve güvenilir verimliliklerin önemli olduğu video analizi, robotik algılama ve uç tabanlı sistemler gibi uygulamalar için idealdir. Ayrıca, açıklama sürecinin bazı kısımlarını otomatikleştirerek iş akışlarını kolaylaştırdığı için veri etiketleme ve veri kümesi düzenleme için de özellikle kullanışlıdır.

Hızlı kavram bölümlemenin artıları ve eksileri

İşte promptable kavram segmentasyonunu kullanmanın başlıca avantajlarından bazıları:

  • Daha hızlı yineleme ve prototip oluşturma: Yeni segmentasyon görevleri, veri kümelerini yeniden oluşturmak veya modelleri yeniden eğitmek yerine istemleri değiştirerek hızlı bir şekilde test edilebilir, bu da deneme ve geliştirme sürecini hızlandırır.
  • Alanlar arası uyarlanabilirlik: Aynı PCS modeli, iş akışında minimum değişikliklerle tıbbi görüntüleme, robotik veya video analizi gibi farklı alanlara da uygulanabilir.
  • Etkileşimli iyileştirme: Kullanıcılar, sonuçları iyileştirmek için komut istemlerini yinelemeli olarak ayarlayabilir veya kılavuz ekleyebilir, böylece yeniden eğitim almadan belirsiz sahneleri veya sınır durumları daha kolay ele alabilir.

PCS'nin belirgin avantajları olsa da, dikkate alınması gereken bazı sınırlamalar şunlardır:

  • Komut duyarlılığı: Komutun yazılma veya sunulma şeklindeki küçük değişiklikler, çıktıyı etkileyebilir. Çok belirsiz veya çok spesifik komutlar, eksik veya hatalı bölümlemeye neden olabilir.
  • Daha az öngörülebilir davranış: Model, sabit etiketlerden seçim yapmak yerine komutları yorumladığından, sonuçlar sahneler ve girdiler arasında daha fazla farklılık gösterebilir ve bu, sıkı bir şekilde kontrol edilen iş akışları için sorun oluşturabilir.
  • Belirsiz kavram yorumu: Bazı kavramlar öznel veya gevşek bir şekilde tanımlanmıştır, bu da kullanıcılar arasında veya görüntüler arasında tutarsız segmentasyon sonuçlarına yol açabilir.
  • Son derece spesifik hedefler için sınırlı güvenilirlik: Prompt tabanlı modeller, hassas ve tutarlı bir şekilde ince özelliklerin tanımlanması gereken kusur tespiti gibi dar tanımlı, örneğe özgü görevler için genellikle daha az güvenilirdir.

Hızlı ve geleneksel segmentasyon arasında seçim yapma

Promptable segmentasyonu keşfederken, hangi uygulamalar için en uygun olduğunu ve YOLO26 gibi geleneksel bir bilgisayar görme modelinin, çözmeye çalıştığınız sorun için ne zaman daha uygun olduğunu merak edebilirsiniz. Promptable segmentasyon, genel nesneler için iyi sonuç verir, ancak çok hassas ve tutarlı sonuçlar gerektiren kullanım durumları için uygun değildir.

Kusur tespiti buna iyi bir örnektir. Üretimde kusurlar genellikle küçük çizikler, ezikler, yanlış hizalamalar veya yüzey düzensizlikleri gibi çok küçük ve ince olabilir. Ayrıca malzemelere, aydınlatmaya ve üretim koşullarına bağlı olarak büyük farklılıklar gösterebilirler. 

Bu sorunları basit bir komutla tanımlamak zordur ve genel amaçlı bir modelin bunları detect daha da zordur. Genel olarak, komut tabanlı modeller kusurları gözden kaçırma veya istikrarsız sonuçlar üretme eğilimindedir, oysa kusur verileri üzerinde özel olarak eğitilmiş modeller gerçek dünya denetim sistemleri için çok daha güvenilirdir.

Önemli çıkarımlar

Promptable kavram segmentasyonu, görme sistemlerinin her zaman yeni nesneler ve fikirlerin ortaya çıktığı gerçek dünyaya uyum sağlamasını kolaylaştırır. Kullanıcılar, sabit etiketlere bağlı kalmak yerine, segment istediklerini basitçe tanımlayabilir segment gerisini modele bırakabilirler. Bu da zaman tasarrufu sağlar ve manuel işi azaltır. Hala bazı sınırlamaları olsa da, PCS segmentasyonun pratikte kullanım şeklini şimdiden değiştiriyor ve gelecekteki görme sistemlerinin temel bir parçası haline gelmesi muhtemel.

GitHub deposunu ziyaret ederek ve topluluğumuza katılarak AI hakkında daha fazla bilgi edinin. Robotikte AI ve üretimde bilgisayar görüşü hakkında bilgi edinmek için çözüm sayfalarımızı inceleyin. Vision AI'yı bugün kullanmaya başlamak için lisans seçeneklerimizi keşfedin!

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın