Sözlük

Görsel Uyarı

Noktalar ve kutularla AI modellerini yönlendirmek için görsel komutları keşfedin. Ultralytics YOLO SAM nasıl hassas segmentasyon ve daha hızlı veri anotasyonu SAM öğrenin.

Görsel komut verme, bilgisayar görüşünde ortaya çıkan yeni bir tekniktir. Bu teknikte kullanıcılar, bir AI modelinin odağını görüntüdeki belirli nesnelere veya bölgelere yönlendirmek için nokta, sınırlayıcı kutu veya karalama gibi uzamsal veya görsel ipuçları sağlar. Öncelikle metin açıklamalarına dayanan geleneksel komut mühendisliğinden farklı olarak görsel komut verme, Yapay Zeka (AI) sistemleriyle daha hassas ve sezgisel bir etkileşim sağlar. Bu yöntem, modern Bu yöntem, modern temel modellerin yeteneklerinden yararlanarak, kapsamlı yeniden eğitim veya büyük etiketli veri kümelerine gerek kalmadan bölümleme ve algılama gibi görevleri yerine getirir. Önemli olanı etkili bir şekilde "işaret ederek", kullanıcılar genel amaçlı modelleri anında yeni görevlere uyarlayabilir ve insan niyeti ile makine algısı arasındaki boşluğu kapatabilir.

Görsel Uyarı Mekanizmaları

Temelinde, görsel komutlar, uzamsal bilgileri doğrudan modelin işleme boru hattına enjekte ederek çalışır. Bir kullanıcı bir nesneye tıkladığında veya bir kutu çizdiğinde, bu girdiler, sinir ağı tarafından görüntü özellikleriyle entegre edilen koordinat tabanlı gömülü öğelere dönüştürülür. Bu süreç, modelin geometrik komutlara dayalı olarak maskeleri tahmin ettiği Segment Anything Model (SAM) gibi etkileşimli mimariler için çok önemlidir .

Görsel uyarıların esnekliği, çeşitli etkileşim türlerine olanak tanır:

Nokta İpuçları: Bir kullanıcı, ilgilendiği nesneyi belirtmek için belirli bir piksele tıklar. Model daha sonra bu seçimi nesnenin tüm sınırlarına genişletir.
Kutu İpuçları: Bir sınırlayıcı kutu çizmek, kabaca bir konum belirleme sağlar ve modele, o alan içindeki classify segment ayırmasını segment classify bildirir.
Karalama İpuçları: Bir nesnenin üzerine serbestçe çizilen çizgiler, nesnelerin üst üste geldiği veya benzer dokulara sahip olduğu karmaşık sahnelerin anlamını netleştirmeye yardımcı olabilir.

CVPR 2024 'te sunulan son araştırmalar, görsel yönlendirmenin veri anotasyonu için gereken süreyi önemli ölçüde azalttığını vurgulamaktadır. İnsan anotatörler, poligonları manuel olarak izlemek yerine basit tıklamalarla model tahminlerini gerçek zamanlı olarak düzeltebilirler.

Görsel İpucu ve Metin İpucu

Her iki teknik de model davranışını yönlendirmeyi amaçlasa da, görsel yönlendirmeyi metin tabanlı yöntemlerden ayırmak önemlidir. Metinden görüntüye dönüştürme veya sıfır atış algılama, anlamsal açıklamaları (örneğin, "kırmızı arabayı bul") yorumlamak için doğal dil işleme (NLP) tekniklerine dayanır. Ancak dil, kesin uzamsal konumları veya soyut şekilleri tanımlamak için belirsiz veya yetersiz olabilir.

Görsel yönlendirme, talimatı piksel uzayının kendisine dayandırarak bu belirsizliği giderir. Örneğin, tıbbi görüntü analizinde, bir radyologun şüpheli bir nodülü tıklaması, onun tam koordinatlarını ve düzensiz şeklini metinle açıklamaya çalışmasından çok daha doğrudur. Genellikle, en güçlü iş akışları her iki yaklaşımı da birleştirir: anlamsal filtreleme için metin ve uzamsal hassasiyet için görsel uyarılar. Bu kavram, çok modlu öğrenme olarak bilinir.

Gerçek Dünya Uygulamaları

Görsel yönlendirmenin uyarlanabilirliği, çeşitli sektörlerde hızla benimsenmesine yol açmıştır:

Etkileşimli Tıbbi Teşhis: Doktorlar, MRI taramalarında tümörleri veya organları izole etmek için görsel yönlendirme araçları kullanıyor. İlgi alanına tıklayarak, anında 3D hacimsel ölçümler oluşturabiliyorlar, bu da hassas tümörtespiti ve cerrahi planlamaya yardımcı oluyor.
Akıllı Fotoğraf Düzenleme: Adobe Photoshop gibi tüketici yazılımlarında veya mobil uygulamalarda, görsel komutlar "sihirli seçim" araçlarını çalıştırır. Kullanıcılar, manuel maskeleme becerisine ihtiyaç duymadan, altta yatan örnek segmentasyon teknolojilerini kullanarak bir kişiye veya nesneye dokunarak arka planı kaldırabilir veya hedeflenen filtreleri uygulayabilir. .
Robotik Manipülasyon: Robotik Yapay Zeka'da, robotlara görsel bir arayüz aracılığıyla belirli öğeleri almaları talimatı verilebilir. Operatör, robotun kamera görüntüsünde bir nesneye tıklayarak robota görsel bir komut verir ve robot bu komutu kavrama koordinatlarına dönüştürerek depolarda insan dahil otomasyonu kolaylaştırır.

Ultralytics ile Uygulama

Ultralytics , özellikle FastSAM SAM gibi modeller aracılığıyla görsel komut iş akışlarını destekler. Bu modeller, geliştiricilerin segmentasyon maskelerini almak için programlı olarak nokta veya kutu koordinatlarını iletmelerine olanak tanır.

Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics paketi, bir noktaya işaret etmek için bir görüntüye uygulanır ve modele belirli koordinatlarda bulunan segment ayırması talimatını verir.

from ultralytics import SAM

# Load the Segment Anything Model (SAM)
model = SAM("sam2.1_b.pt")

# Apply a visual point prompt to the image
# The 'points' argument accepts [x, y] coordinates
# labels: 1 indicates a foreground point (include), 0 indicates background
results = model("https://ultralytics.com/images/bus.jpg", points=[[300, 350]], labels=[1])

# Display the segmented result
results[0].show()

Model Çevikliğini Geliştirme

Görsel yönlendirme, modellerin artık statik "kara kutular" değil, etkileşimli araçlar olduğu "yönlendirilebilir" bilgisayar görüşüne doğru bir geçişi temsil eder. Bu yetenek, modellerin kullanıcı geri bildirimlerini dahil ederek hızla geliştiği aktif öğrenme döngüleri için gereklidir .

Bu yetenekleri üretime entegre etmek isteyen geliştiriciler için Ultralytics , veri kümelerini yönetmek ve dinamik girdileri işleyebilen modelleri dağıtmak için araçlar sunar. Araştırmalar ilerledikçe, görsel komut istemleri ile büyük dil modelleri (LLM'ler) arasında daha sıkı bir entegrasyon olacağını ve sistemlerin görsel girdileri şu anda metinleri işledikleri akıcılıkla yorumlayabileceklerini öngörüyoruz.

Görsel Uyarı

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Görsel Uyarı Mekanizmaları

Görsel İpucu ve Metin İpucu

Gerçek Dünya Uygulamaları

Ultralytics ile Uygulama

Model Çevikliğini Geliştirme

Bu kategoride daha fazla okuyun

Bilgisayar görme teknolojisi ile desteklenen 12 hava görüntüsü kullanım örneği

Monoküler derinlik tahmini nedir? Genel bakış

AI tehdit tespiti için Ultralytics YOLO kullanımına bir bakış

Ultralytics topluluğuna katılın