Yapay Zeka Görüşü

Komut istemine dayalı konsept segmentasyonunu anlamak

Komut istemine dayalı (promptable) konsept segmentasyonunu, geleneksel yöntemlerden farkını ve YOLOE-26 gibi ilişkili modellerin açık kelime dağarcığı (open-vocabulary) yeteneklerini nasıl sağladığını keşfet.

ABAbirami Vina

4 min readJanuary 27, 2026

Bir görüntüdeki nesnelerin komut istemine dayalı konsept segmentasyonu

Görüntü tabanlı yapay zeka hızla ilerliyor ve gerçek dünya ortamlarında görüntüleri ve videoları analiz etmek için yaygın bir şekilde kullanılıyor. Örneğin, trafik yönetim sistemlerinden perakende analizlerine kadar uzanan uygulamalar, computer vision models ile entegre ediliyor.

Bu uygulamaların çoğunda, nesne algılama modelleri gibi görüntü modelleri, araçlar, insanlar ve ekipmanlar dahil olmak üzere önceden tanımlanmış bir nesne kümesini tanımak üzere eğitilir. Eğitim sırasında, bu modellere her bir nesnenin nasıl göründüğünü ve bir sahnedeki diğer nesnelerden nasıl ayırt edileceğini öğrenmeleri için birçok etiketli örnek gösterilir.

Segmentasyon görevleri için modeller, bu nesnelerin etrafında hassas piksel düzeyinde ana hatlar oluşturarak bir adım daha ileri gider. Bu, sistemlerin her bir nesnenin bir görüntüde tam olarak nerede bulunduğunu anlamasını sağlar.

Bu, sistemin yalnızca eğitildiği şeyleri tanıması gerektiği sürece iyi çalışır. Ancak gerçek dünya ortamlarında durum nadiren böyledir.

Görsel sahneler genellikle dinamiktir. Yeni nesneler ve görsel kavramlar ortaya çıkar, koşullar değişir ve kullanıcılar genellikle orijinal eğitim kurulumunun bir parçası olmayan nesneleri segmente etmek isterler.

Bu sınırlamalar, segmentasyon söz konusu olduğunda özellikle belirgindir. Yapay zeka gelişmeye devam ettikçe, tekrarlanan eğitimler olmadan yeni kavramlara uyum sağlayabilen daha esnek segmentasyon modellerine olan ihtiyaç artmaktadır. İşte bu yüzden istem tabanlı kavram segmentasyonu (PCS) dikkat çekiyor.

Sabit bir nesne kategorileri listesine güvenmek yerine, kullanıcılar neyi segmente etmek istediklerini metin, görsel istemler veya örnek görüntüler kullanarak tanımlayabilirler. Bu modeller, o kavram eğitim sırasında açıkça dahil edilmemiş olsa bile, tanımlanan kavrama uyan tüm bölgeleri tanımlayabilir ve segmente edebilir.

Bu makalede, istem tabanlı kavram segmentasyonunun nasıl çalıştığını, geleneksel yaklaşımlardan nasıl farklılaştığını ve günümüzde nerelerde kullanıldığını inceleyeceğiz.

Link to this sectionİstem tabanlı kavram segmentasyonu nedir?#

Çoğu durumda, segmentasyon modelleri kısa bir nesne türü listesini tanımak üzere eğitilir. Bu, bir yapay zeka sisteminin yalnızca belirli bir nesne kümesini algılaması ve segmente etmesi gerektiğinde iyi çalışır.

Ancak gerçek dünya uygulamalarında görsel sahneler dinamiktir. Yeni nesneler ortaya çıkar, görev gereksinimleri değişir ve kullanıcılar genellikle orijinal etiket kümesine dahil edilmeyen kavramları segmente etmeye ihtiyaç duyarlar. Bu durumları desteklemek, genellikle yeni yüksek kaliteli veriler ve ek açıklamalar toplamayı ve modeli yeniden eğitmeyi gerektirir, bu da maliyeti artırır ve dağıtımı yavaşlatır.

İstem tabanlı kavram segmentasyonu, kullanıcıların sabit bir etiket listesinden seçim yapmak yerine modele neye bakması gerektiğini söylemesine izin vererek bu sorunu çözer. Kullanıcılar aradıkları nesneyi veya fikri tanımlar ve model, görüntüdeki eşleşen tüm alanları vurgular. Bu, kullanıcının niyetini görüntüdeki gerçek piksellerle bağlamayı çok daha kolaylaştırır.

Görüntüdeki nesneleri segmentlemek için konsept komutları kullanma

Şekil 1. Segmentasyon için kavram istemlerini kullanmaya bir bakış (Source)

Link to this sectionSegmentasyonu farklı istem türleriyle yönlendirme#

İstem tabanlı kavram segmentasyonunu destekleyen modeller esnektir çünkü farklı girdi türlerini kabul edebilirler. Başka bir deyişle, modele neye bakması gerektiğini söylemenin metin açıklamaları, görsel ipuçları veya örnek görüntüler gibi birden fazla yolu vardır.

İşte her yaklaşıma daha yakından bir bakış:

Metin istemleri: “Okul otobüsü” veya “tümör bölgesi” gibi kısa ifadeler, segmente edilecek kavramı tanımlamak için kullanılabilir. Model, kelimelerin anlamını yorumlar ve eşleşen bölgeleri tanımlar.
Görsel istemler: Bu istemler, görüntü içindeki noktaları, kutuları veya kaba çizimleri ipucu olarak kullanır. Bu işaretler, nereye bakılacağına rehberlik eder ve son sınırın şekillenmesine yardımcı olur.
Görüntü örnekleri: Referans görüntüler veya küçük kırpmalar, ilgi duyulan kavramı temsil eder. Model, görsel olarak benzer bölgeleri arar ve görsel görünüme göre onları segmente eder.

Link to this sectionPCS ile geleneksel segmentasyon arasındaki fark#

İstem tabanlı kavram segmentasyonunun nasıl çalıştığına dalmadan önce, önce onu çeşitli geleneksel nesne segmentasyon yöntemleriyle karşılaştıralım.

PCS, açık sözcüklü (open-vocabulary) ve istem odaklı modelleri mümkün kılar. İstemler aracılığıyla tanımlanan yeni fikirlerle çalışabilir, ancak geleneksel segmentasyon bunu yapamaz. Her birinin kendi varsayımları ve sınırlamaları olan birkaç farklı geleneksel segmentasyon yaklaşımı türü vardır.

İşte bazı temel geleneksel segmentasyon türlerine bir göz atış:

Semantic segmentation: Görüntüdeki her piksel yol, bina veya insan gibi bir kategorinin parçası olarak etiketlenir. Aynı etikete sahip tüm pikseller bir araya gruplanır, bu nedenle model tek tek nesne örneklerini ayırmaz.
Instance segmentation: Model tek tek nesneleri tanımlar ve segmente eder, bu nedenle iki insan veya iki araba ayrı öğeler olarak değerlendirilir.
Panoptic segmentation: Bu teknik, hem arka plan bölgelerini hem de tek tek nesneleri kapsayarak sahnenin tam bir görünümünü sağlamak için anlamsal ve örnek segmentasyonunu birleştirir.

Tüm bu yaklaşımlar, önceden tanımlanmış bir nesne kategorileri listesine dayanır. Bu kapsamda iyi çalışırlar, ancak kapsam dışındaki kavramları pek iyi ele almazlar. Yeni bir belirli nesnenin segmente edilmesi gerektiğinde, genellikle ek eğitim verileri ve model ince ayarı gerekir.

PCS bunu değiştirmeyi amaçlar. Önceden tanımlanmış kategorilere kilitlenmek yerine, çıkarım anında bir görüntüde neyi segmente etmek istediğinizi tanımlamanıza olanak tanır.

Link to this sectionPCS modellerinin evrimi#

Sırada, segmentasyon modellerinin istem tabanlı kavram segmentasyonuna doğru nasıl evrildiğini inceleyelim.

Segmentasyonda bir değişime işaret eden popüler bir temel model, 2023 yılında tanıtılan SAM yani Segment Anything Model idi. SAM, önceden tanımlanmış nesne kategorilerine güvenmek yerine, kullanıcıların noktalar veya sınırlayıcı kutular gibi basit görsel istemler kullanarak segmentasyona rehberlik etmelerine izin verdi.

SAM ile kullanıcıların artık bir etiket seçmesine gerek kalmadı. Sadece bir nesnenin nerede olduğunu belirtebilirler ve model onun için bir maske oluştururdu. Bu, segmentasyonu daha esnek hale getirdi, ancak kullanıcıların yine de modele nereye bakacağını göstermesi gerekiyordu.

2024 yılında piyasaya sürülen SAM 2, daha karmaşık sahneleri ele alarak ve istem tabanlı segmentasyonu videoya genişleterek bu fikrin üzerine inşa edildi. Farklı aydınlatma koşullarında, nesne şekillerinde ve harekette dayanıklılığı artırırken, segmentasyona rehberlik etmek için yine temel olarak görsel istemlere dayandı.

SAM 3 modeli, bu evrimin en son adımıdır. Geçen yıl piyasaya sürüldü ve görsel anlayışı dil rehberliğiyle birleştiren, görüntü ve video segmentasyon görevlerinde tutarlı davranış sağlayan birleşik bir modeldir.

SAM 3 ile kullanıcılar sadece işaret etme veya çizim istemleriyle sınırlı değildir. Bunun yerine, neyi segmente etmek istediklerini metin kullanarak tanımlayabilirler ve model, görüntü veya video karelerinde bu açıklamaya uyan bölgeleri arar.

Segmentasyon, sabit nesne kategorileri yerine kavramlarla yönlendirilir ve farklı sahnelerde ve zaman içinde açık sözcüklü (open vocabulary) kullanımı destekler. Aslında SAM 3, Wikidata gibi kaynaklardan türetilen ve büyük ölçekli eğitim verileriyle genişletilen bir ontolojiye dayanan, geniş ve öğrenilmiş bir kavram alanı üzerinde çalışır.

Tek bir görüntüyü segmentlemek için SAM 3'e komut verme

Şekil 2. SAM 3'ü yönlendirme ve tek bir görüntüyü segmentleme örneği (Source)

Çoğunlukla geometrik istemlere dayanan önceki sürümlerle karşılaştırıldığında, SAM 3 daha esnek, kavram odaklı segmentasyona doğru bir adımı temsil eder. Bu, onu nesnelerin veya ilgi çekici fikirlerin değişebileceği ve her zaman önceden tanımlanamayacağı gerçek dünya uygulamaları için daha uygun hale getirir.

Link to this sectionİstem tabanlı görsel segmentasyonun nasıl çalıştığını keşfetme#

Peki, istem tabanlı kavram segmentasyonu nasıl çalışır? Büyük önceden eğitilmiş görüntü ve vision language models üzerine inşa edilmiştir; bunlar devasa görüntü koleksiyonları ve çoğu durumda eşleştirilmiş metinler üzerinde eğitilmiş modellerdir. Bu eğitim, genel görsel kalıpları ve anlamsal anlamı öğrenmelerini sağlar.

Çoğu PCS modeli, farklı bölgelerin birbirleriyle nasıl ilişkili olduğunu anlamak için tüm görüntüyü bir kerede işleyen Transformer tabanlı mimariler kullanır. Bir görüntü Transformer'ı görüntüden görsel özellikleri çıkarırken, bir metin kodlayıcı kelimeleri modelin üzerinde çalışabileceği sayısal temsiller haline getirir.

Eğitim sırasında bu modeller, tam nesne sınırlarını tanımlayan piksel düzeyindeki maskeler, nesneleri kabaca konumlandıran sınırlayıcı kutular ve görüntüde nelerin göründüğünü tanımlayan görüntü düzeyindeki etiketler dahil olmak üzere farklı denetim türlerinden öğrenebilirler. Farklı türde etiketli veriler kullanılarak eğitim yapmak, modelin hem ince detayları hem de daha geniş görsel kavramları yakalamasına yardımcı olur.

Çıkarım sırasında, yani model tahmin yapmak için kullanıldığında, PCS istem odaklı bir süreci izler. Bir kullanıcı metin açıklamaları, noktalar veya kutular gibi görsel ipuçları veya örnek görüntüler aracılığıyla rehberlik sağlar. Model, hem istemi hem de görüntüyü paylaşılan bir dahili temsile veya embedding'e kodlar ve tanımlanan kavramla örtüşen bölgeleri tanımlar.

Ardından bir maske kod çözücü, bu paylaşılan temsili hassas piksel düzeyinde segmentasyon maskelerine dönüştürür. Model, görsel özellikleri anlamsal anlamla ilişkilendirdiğinden, eğitim sırasında açıkça dahil edilmemiş olsalar bile yeni kavramları segmente edebilir.

Ayrıca, çoğu zaman çıktı, istemi ayarlayarak veya ek rehberlik ekleyerek iyileştirilebilir, bu da modelin karmaşık veya belirsiz sahneleri işlemesine yardımcı olur. Bu yinelemeli süreç, dağıtım sırasında pratik optimizasyonu destekler.

İstem tabanlı kavram segmentasyon modelleri, genellikle daha önce görülmemiş kavramları ne kadar iyi segmente ettiklerine ve farklı sahnelerde ne kadar sağlam performans gösterdiklerine göre değerlendirilir. Kıyaslamalar genellikle maske kalitesi, genelleme ve hesaplama verimliliğine odaklanır ve gerçek dünya dağıtım gereksinimlerini yansıtır.

Link to this sectionPCS'nin gerçek dünya kullanım durumları#

Şimdi, istem tabanlı kavram segmentasyonunun halihazırda nerede kullanıldığına ve nasıl gerçek bir etki yaratmaya başladığına bakalım.

Link to this sectionTıbbi görüntüleme için esnek görüntü segmentasyonu#

Tıbbi görüntüleme birçok biyolojik yapıyı, hastalığı ve tarama türünü içerir ve her gün yeni vakalar ortaya çıkar. Geleneksel segmentasyon modelleri bu çeşitliliğe ayak udurmakta zorlanır.

PCS, klinisyenlerin kısa, katı bir listeden seçim yapmak yerine neyi bulmak istediklerini tanımlamalarına izin verdiği için bu alana doğal bir şekilde uyum sağlar. Metin ifadeleri veya görsel istemlerle PCS, her yeni görev için modeli yeniden eğitmeden organları veya endişe duyulan alanları doğrudan segmente etmek için kullanılabilir. Bu, çeşitli klinik ihtiyaçların ele alınmasını kolaylaştırır, manuel maske çizimi ihtiyacını azaltır ve birçok görüntüleme türünde çalışır.

Harika bir örnek, tıbbi görüntülemede metin istemli PCS için SAM 3 mimarisini uyarlayan MedSAM-3'tür. Bu model, karaciğer veya böbrek gibi organ adları ve tümör veya lezyon gibi lezyonla ilgili kavramlar gibi açık anatomik ve patolojik terimlerle yönlendirilebilir. Bir istem verildiğinde, model tıbbi görüntüdeki ilgili bölgeyi doğrudan segmente eder.

MedSAM-3 ayrıca hem metin hem de görüntüler üzerinde akıl yürütebilen çok modlu büyük dil modellerini (MLLM'ler veya çok modlu LLM'ler) entegre eder. Bu modeller, daha zorlu vakalarda doğruluğu artırmak için sonuçların yinelemeli olarak iyileştirildiği bir aracı döngüsünde (agent-in-the-loop) çalışır.

Tıbbi görüntülerde metin komutlu tümör segmentasyonu için MedSAM-3 iş akışı

Şekil 3. Tıbbi görüntülerde metin istemli tümör segmentasyonu için bir MedSAM-3 hattı (Source)

MedSAM-3; röntgen, MR, BT, ultrason ve video verilerinde iyi performans göstererek, PCS'nin gerçek klinik ortamlarda daha esnek ve verimli tıbbi görüntüleme iş akışlarını nasıl sağlayabileceğini vurgular.

Link to this sectionRobotik cerrahi ve otomasyon için uyarlanabilir segmentasyon#

Robotic surgery, araçları takip etmek ve hızla değişen cerrahi sahneleri anlamak için görüntü sistemlerine güvenir. Cihazlar hızlı hareket eder, aydınlatma değişir ve her an yeni araçlar ortaya çıkabilir, bu da önceden tanımlanmış etiket sistemlerinin bakımını zorlaştırır.

PCS ile robotlar araçları takip edebilir, kameralara rehberlik edebilir ve cerrahi adımları gerçek zamanlı olarak izleyebilir. Bu, manuel etiketlemeyi azaltır ve sistemlerin farklı prosedürlere uyum sağlamasını kolaylaştırır. Cerrahlar veya otomatik sistemler, bir görüntüde nelerin segmente edilmesi gerektiğini belirtmek için “tutucu”, “neşter” veya “kamera aracı” gibi metin istemleri kullanabilir.

Robotik cerrahi sırasında cerrahi aletlerin segmentasyonu

Şekil 4. Robotik cerrahi sırasında kullanılan cerrahi aletlerin segmentasyonu (Source)

Link to this sectionUltralytics YOLOE-26 ile açık sözcüklü (open-vocabulary) segmentasyon#

İstem tabanlı kavram segmentasyonuyla ilgili bir diğer ilginç son teknoloji modelimiz, Ultralytics YOLOE-26'dır. Modelimiz, açık sözcüklü, istem odaklı segmentasyonu Ultralytics YOLO model ailesine getiriyor.

YOLOE-26, Ultralytics YOLO26 mimarisi üzerine inşa edilmiştir ve açık sözcüklü örnek segmentasyonunu destekler. YOLOE-26, kullanıcıların segmentasyona çeşitli şekillerde rehberlik etmelerine olanak tanır.

Kısa, görsel olarak temellendirilmiş ifadelerin hedef nesneyi belirtebildiği metin istemlerini ve görüntü ipuçlarına dayalı ek rehberlik sağlayan görsel istemleri destekler. Ayrıca YOLOE-26, modelin kullanıcı istemleri gerektirmeden yerleşik bir kelime dağarcığından nesneleri algıladığı ve segmente ettiği, zero-shot çıkarım için istem içermeyen bir mod içerir.

YOLOE-26, nesne kategorilerinin değişebileceği ancak düşük gecikme süresi ve güvenilir verimliliğin esas olduğu video analitiği, robotik algı ve uç tabanlı sistemler gibi uygulamalar için harikadır. Ayrıca, açıklama sürecinin bölümlerini otomatikleştirerek iş akışlarını kolaylaştırdığı için veri etiketleme ve veri kümesi oluşturma için de özellikle yararlıdır.

Link to this sectionİstem tabanlı kavram segmentasyonunun artıları ve eksileri#

İşte istem tabanlı kavram segmentasyonunu kullanmanın ana avantajlarından bazıları:

Daha hızlı yineleme ve prototipleme: Yeni segmentasyon görevleri, veri kümelerini yeniden oluşturmak veya modelleri yeniden eğitmek yerine istemleri değiştirerek hızlı bir şekilde test edilebilir, bu da deney ve geliştirmeyi hızlandırır.
Alanlar arası uyarlanabilirlik: Aynı PCS modeli, iş akışında minimum değişiklikle tıbbi görüntüleme, robotik veya video analitiği gibi farklı alanlara genellikle uygulanabilir.
Etkileşimli iyileştirme: Kullanıcılar, sonuçları iyileştirmek için istemleri yinelemeli olarak ayarlayabilir veya rehberlik ekleyebilir, bu da belirsiz sahneleri veya uç durumları yeniden eğitim olmadan ele almayı kolaylaştırır.

PCS'nin net avantajları olsa da, dikkate alınması gereken bazı sınırlamalar şunlardır:

İstem duyarlılığı: Bir istemin yazılma veya sunulma şeklindeki küçük değişiklikler çıktıyı etkileyebilir. Çok belirsiz veya çok spesifik istemler, eksik veya hatalı segmentasyona yol açabilir.
Daha az öngörülebilir davranış: Model sabit etiketlerden seçim yapmak yerine istemleri yorumladığından, sonuçlar sahneler ve girdiler arasında daha fazla değişiklik gösterebilir, bu da sıkı bir şekilde kontrol edilen hatlar için bir sorun olabilir.
Belirsiz kavram yorumu: Bazı kavramlar özneldir veya gevşek bir şekilde tanımlanmıştır, bu da kullanıcılar arasında veya görüntüler arasında tutarsız segmentasyon sonuçlarına yol açabilir.
Son derece spesifik hedefler için sınırlı güvenilirlik: İstem tabanlı modeller, ince özelliklerin hassas ve tutarlı bir şekilde tanımlanmasının gerekli olduğu kusur algılama gibi dar kapsamlı, örnek bazlı görevler için genellikle daha az güvenilirdir.

Link to this sectionİstem tabanlı ve geleneksel segmentasyon arasında seçim yapma#

İstem tabanlı segmentasyonu keşfederken, hangi uygulamalar için en uygun olduğunu ve YOLO26 gibi geleneksel bir bilgisayarlı görü modelinin çözmeye çalıştığınız sorun için ne zaman daha iyi bir uyum sağladığını merak edebilirsiniz. İstem tabanlı segmentasyon genel nesneler için iyi çalışır, ancak çok hassas ve tutarlı sonuçlar gerektiren kullanım durumları için iyi bir uyum değildir.

Kusur algılama iyi bir örnektir. Üretimde kusurlar genellikle küçük çizikler, ezikler, hizasızlıklar veya yüzey düzensizlikleri gibi küçük ve incedir. Ayrıca malzemelere, aydınlatmaya ve üretim koşullarına bağlı olarak büyük ölçüde değişebilirler.

Bu sorunları basit bir istemle tanımlamak zordur ve genel amaçlı bir modelin güvenilir bir şekilde algılaması daha da zordur. Genel olarak, istem tabanlı modeller kusurları gözden kaçırma veya kararsız sonuçlar üretme eğilimindedir, oysa kusur verileri üzerinde özel olarak eğitilmiş modeller gerçek dünya denetim sistemleri için çok daha güvenilirdir.

Link to this sectionÖne çıkanlar#

İstem tabanlı kavram segmentasyonu, görüntü sistemlerinin yeni nesnelerin ve fikirlerin her zaman ortaya çıktığı gerçek dünyaya uyum sağlamasını kolaylaştırır. Sabit etiketlere kilitlenmek yerine, kullanıcılar neyi segmente etmek istediklerini tanımlayabilir ve gerisini modelin yapmasına izin verebilir, bu da zamandan tasarruf sağlar ve manuel iş yükünü azaltır. Sınırlamaları olsa da, PCS halihazırda segmentasyonun pratikte kullanılma biçimini değiştiriyor ve gelecekteki görüntü sistemlerinin temel bir parçası haline gelmesi muhtemeldir.

GitHub repository sayfamızı ziyaret ederek ve community sayfamıza katılarak yapay zeka hakkında daha fazla bilgi edinin. AI in robotics ve computer vision in manufacturing hakkında bilgi edinmek için çözüm sayfalarımıza göz atın. Bugün yapay zeka ile çalışmaya başlamak için our licensing options sayfasına göz atın!

Komut istemine dayalı konsept segmentasyonunu anlamak

Link to this sectionİstem tabanlı kavram segmentasyonu nedir?#

Link to this sectionSegmentasyonu farklı istem türleriyle yönlendirme#

Link to this sectionPCS ile geleneksel segmentasyon arasındaki fark#

Link to this sectionPCS modellerinin evrimi#

Link to this sectionİstem tabanlı görsel segmentasyonun nasıl çalıştığını keşfetme#

Link to this sectionPCS'nin gerçek dünya kullanım durumları#

Link to this sectionTıbbi görüntüleme için esnek görüntü segmentasyonu#

Link to this sectionRobotik cerrahi ve otomasyon için uyarlanabilir segmentasyon#

Link to this sectionUltralytics YOLOE-26 ile açık sözcüklü (open-vocabulary) segmentasyon#

Link to this sectionİstem tabanlı kavram segmentasyonunun artıları ve eksileri#

Link to this sectionİstem tabanlı ve geleneksel segmentasyon arasında seçim yapma#

Link to this sectionÖne çıkanlar#

Explore solutions

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Robotikte AI

Lojistikte Yapay Zeka

Perakendede AI

Sağlıkta Yapay Zeka

Üretimde Yapay Zeka

Otomotivde yapay zeka

Tarımda yapay zeka

Yapay zekanın geleceğini birlikte inşa edelim!