Visual Prompting
Yapay zeka modellerini noktalar ve kutularla yönlendirmek için görsel yönlendirmeyi keşfet. Ultralytics YOLO ve SAM'in hassas segmentasyonu ve daha hızlı veri etiketlemeyi nasıl mümkün kıldığını öğren.
Görsel isteme, kullanıcıların bir görüntü içindeki belirli nesnelere veya bölgelere odaklanması için bir yapay zeka modeline noktalar, sınırlayıcı kutular veya karalamalar gibi konumsal veya görsel ipuçları sağladığı, bilgisayarlı görü alanında gelişmekte olan bir tekniktir. Temel olarak metin tanımlarına dayanan geleneksel istem mühendisliğinden farklı olarak, görsel isteme Yapay Zeka (AI) sistemleriyle daha hassas ve sezgisel etkileşime olanak tanır. Bu yöntem, modern temel modellerin kapsamlı yeniden eğitim veya büyük etiketli veri kümeleri gerektirmeden segmentasyon ve tespit gibi görevleri yerine getirme yeteneklerinden yararlanır. Kullanıcılar, önemli olana etkili bir şekilde "işaret ederek", genel amaçlı modelleri yeni görevlere anında uyarlayabilir ve insan niyeti ile makine algısı arasındaki boşluğu doldurabilir.
Link to this sectionGörsel İsteme Mekanizmaları#
Görsel isteme temelinde, konumsal bilgiyi doğrudan modelin işleme hattına enjekte ederek çalışır. Bir kullanıcı bir nesneye tıkladığında veya bir kutu çizdiğinde, bu girdiler sinir ağının görüntü özellikleri ile entegre ettiği koordinat tabanlı yerleştirmelere (embeddings) dönüştürülür. Bu süreç, modelin geometrik istemlere dayalı maskeler tahmin ettiği Segment Anything Model (SAM) gibi etkileşimli mimariler için merkezidir.
Görsel istemenin esnekliği, çeşitli etkileşim türlerine olanak tanır:
- Nokta İstemleri: Kullanıcı, ilgilenilen nesneyi belirtmek için belirli bir piksele tıklar. Model daha sonra bu seçimi tüm nesne sınırlarına genişletir.
- Kutu İstemleri: Bir sınırlayıcı kutu çizmek kaba bir yerelleştirme sağlar ve modele o alanın içinde kalan her şeyi bölütlemesi veya sınıflandırması sinyalini verir.
- Karalama İstemleri: Bir nesne üzerine çizilen serbest el çizgileri, nesnelerin örtüştüğü veya benzer dokulara sahip olduğu karmaşık sahneleri netleştirmeye yardımcı olabilir.
CVPR 2024'te sunulan son araştırmalar, görsel istemenin veri etiketleme için gereken süreyi nasıl önemli ölçüde kısalttığını vurguluyor; çünkü insan etiketleyiciler, poligonları manuel olarak izlemek yerine basit tıklamalarla model tahminlerini gerçek zamanlı olarak düzeltebilir.
Link to this sectionGörsel İsteme ve Metin İsteme Karşılaştırması#
Her iki teknik de model davranışını yönlendirmeyi amaçlasa da, görsel istemeyi metin tabanlı yöntemlerden ayırmak önemlidir. Metinden görüntüye oluşturma veya sıfır örnekli (zero-shot) tespit, anlamsal tanımları (örneğin "kırmızı arabayı bul") yorumlamak için doğal dil işleme (NLP) yöntemlerine güvenir. Ancak dil, hassas konumsal konumları veya soyut şekilleri tanımlamak için belirsiz veya yetersiz kalabilir.
Görsel isteme, talimatı doğrudan piksel uzayına dayandırarak bu belirsizliği giderir. Örneğin, tıbbi görüntü analizinde, bir radyoloğun şüpheli bir nodüle tıklaması, onun tam koordinatlarını ve düzensiz şeklini metin yoluyla tarif etmeye çalışmasından çok daha doğrudur. Genellikle en güçlü iş akışları her iki yaklaşımı da birleştirir; anlamsal filtreleme için metni, konumsal hassasiyet için ise görsel istemleri kullanır. Bu kavram çok modlu öğrenme olarak bilinir.
Link to this sectionGerçek Dünya Uygulamaları#
Görsel istemenin uyarlanabilirliği, çeşitli endüstrilerde hızla benimsenmesine yol açmıştır:
- Etkileşimli Tıbbi Teşhis: Doktorlar, MRI taramalarındaki tümörleri veya organları izole etmek için görsel istem araçlarını kullanır. İlgilenilen bir bölgeye tıklayarak, 3D hacimsel ölçümleri anında oluşturabilir, bu da hassas tümör tespiti ve cerrahi planlamaya yardımcı olur.
- Akıllı Fotoğraf Düzenleme: Adobe Photoshop gibi tüketici yazılımlarında veya mobil uygulamalarda görsel isteme, "sihirli seçim" araçlarını destekler. Kullanıcılar, manuel maskeleme becerilerine ihtiyaç duymadan, temel örnek segmentasyonu teknolojilerinden yararlanarak arka planı kaldırmak veya hedefli filtreler uygulamak için bir kişiye veya nesneye dokunabilir.
- Robotik Manipülasyon: Robotikte AI alanında, robotlara görsel bir arayüz aracılığıyla belirli öğeleri almaları talimatı verilebilir. Bir operatör, robotun kamera görüntüsündeki bir nesneye tıklar ve robotun bunu kavrama koordinatlarına dönüştürdüğü bir görsel istem sağlayarak depolarda insan döngüde otomasyonu kolaylaştırır.
Link to this sectionUltralytics ile Uygulama#
Ultralytics ekosistemi, özellikle FastSAM ve SAM gibi modeller aracılığıyla görsel isteme iş akışlarını destekler. Bu modeller, geliştiricilerin segmentasyon maskelerini almak için nokta veya kutu koordinatlarını programatik olarak iletmelerine olanak tanır.
Aşağıdaki örnek, bir görüntüye nokta istemi uygulamak için ultralytics paketinin nasıl kullanılacağını ve modele belirli koordinatlarda bulunan nesneyi bölütlemesi için nasıl talimat verileceğini göstermektedir.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()Link to this sectionModel Çevikliğini Artırma#
Görsel isteme, modellerin artık statik "kara kutular" değil, etkileşimli araçlar olduğu "istenebilir" bilgisayarlı görüye doğru bir değişimi temsil eder. Bu yetenek, modellerin kullanıcı geri bildirimlerini dahil ederek hızla geliştiği aktif öğrenme döngüleri için elzemdir.
Bu yetenekleri üretime entegre etmek isteyen geliştiriciler için Ultralytics Platform, veri kümelerini yönetmek ve dinamik girdileri işleyebilen modeller dağıtmak için araçlar sunar. Araştırmalar ilerledikçe, görsel istemler ile büyük dil modelleri (LLM) arasında, sistemlerin görsel girdileri şu anda metni işledikleri akıcılıkla mantık yürütebilmelerini sağlayacak daha sıkı bir entegrasyon görmeyi bekliyoruz.






