Noktalar ve kutularla AI modellerini yönlendirmek için görsel komutları keşfedin. Ultralytics YOLO SAM nasıl hassas segmentasyon ve daha hızlı veri anotasyonu SAM öğrenin.
Görsel komut verme, bilgisayar görüşünde ortaya çıkan yeni bir tekniktir. Bu teknikte kullanıcılar, bir AI modelinin odağını görüntüdeki belirli nesnelere veya bölgelere yönlendirmek için nokta, sınırlayıcı kutu veya karalama gibi uzamsal veya görsel ipuçları sağlar. Öncelikle metin açıklamalarına dayanan geleneksel komut mühendisliğinden farklı olarak görsel komut verme, Yapay Zeka (AI) sistemleriyle daha hassas ve sezgisel bir etkileşim sağlar. Bu yöntem, modern Bu yöntem, modern temel modellerin yeteneklerinden yararlanarak, kapsamlı yeniden eğitim veya büyük etiketli veri kümelerine gerek kalmadan bölümleme ve algılama gibi görevleri yerine getirir. Önemli olanı etkili bir şekilde "işaret ederek", kullanıcılar genel amaçlı modelleri anında yeni görevlere uyarlayabilir ve insan niyeti ile makine algısı arasındaki boşluğu kapatabilir.
Temelinde, görsel komutlar, uzamsal bilgileri doğrudan modelin işleme boru hattına enjekte ederek çalışır. Bir kullanıcı bir nesneye tıkladığında veya bir kutu çizdiğinde, bu girdiler, sinir ağı tarafından görüntü özellikleriyle entegre edilen koordinat tabanlı gömülü öğelere dönüştürülür. Bu süreç, modelin geometrik komutlara dayalı olarak maskeleri tahmin ettiği Segment Anything Model (SAM) gibi etkileşimli mimariler için çok önemlidir .
Görsel uyarıların esnekliği, çeşitli etkileşim türlerine olanak tanır:
CVPR 2024 'te sunulan son araştırmalar, görsel yönlendirmenin veri anotasyonu için gereken süreyi önemli ölçüde azalttığını vurgulamaktadır. İnsan anotatörler, poligonları manuel olarak izlemek yerine basit tıklamalarla model tahminlerini gerçek zamanlı olarak düzeltebilirler.
Her iki teknik de model davranışını yönlendirmeyi amaçlasa da, görsel yönlendirmeyi metin tabanlı yöntemlerden ayırmak önemlidir. Metinden görüntüye dönüştürme veya sıfır atış algılama, anlamsal açıklamaları (örneğin, "kırmızı arabayı bul") yorumlamak için doğal dil işleme (NLP) tekniklerine dayanır. Ancak dil, kesin uzamsal konumları veya soyut şekilleri tanımlamak için belirsiz veya yetersiz olabilir.
Görsel yönlendirme, talimatı piksel uzayının kendisine dayandırarak bu belirsizliği giderir. Örneğin, tıbbi görüntü analizinde, bir radyologun şüpheli bir nodülü tıklaması, onun tam koordinatlarını ve düzensiz şeklini metinle açıklamaya çalışmasından çok daha doğrudur. Genellikle, en güçlü iş akışları her iki yaklaşımı da birleştirir: anlamsal filtreleme için metin ve uzamsal hassasiyet için görsel uyarılar. Bu kavram, çok modlu öğrenme olarak bilinir.
Görsel yönlendirmenin uyarlanabilirliği, çeşitli sektörlerde hızla benimsenmesine yol açmıştır:
Ultralytics , özellikle FastSAM SAM gibi modeller aracılığıyla görsel komut iş akışlarını destekler. Bu modeller, geliştiricilerin segmentasyon maskelerini almak için programlı olarak nokta veya kutu koordinatlarını iletmelerine olanak tanır.
Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics paketi, bir noktaya işaret etmek için bir
görüntüye uygulanır ve modele belirli koordinatlarda bulunan segment ayırması talimatını verir.
from ultralytics import SAM
# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")
# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])
# Display the segmented result
results[0].show()
Görsel yönlendirme, modellerin artık statik "kara kutular" değil, etkileşimli araçlar olduğu "yönlendirilebilir" bilgisayar görüşüne doğru bir geçişi temsil eder. Bu yetenek, modellerin kullanıcı geri bildirimlerini dahil ederek hızla geliştiği aktif öğrenme döngüleri için gereklidir .
Bu yetenekleri üretime entegre etmek isteyen geliştiriciler için Ultralytics , veri kümelerini yönetmek ve dinamik girdileri işleyebilen modelleri dağıtmak için araçlar sunar. Araştırmalar ilerledikçe, görsel komut istemleri ile büyük dil modelleri (LLM'ler) arasında daha sıkı bir entegrasyon olacağını ve sistemlerin görsel girdileri şu anda metinleri işledikleri akıcılıkla yorumlayabileceklerini öngörüyoruz.