Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Temellendirme (Grounding)

Yapay zekada temellendirmenin soyut kavramları gerçek dünya verileriyle nasıl ilişkilendirdiğini, dinamik uygulamalarda bağlamı, doğruluğu ve güveni nasıl artırdığını keşfedin.

Topraklama aşağıdaki süreçtir Yapay Zeka (AI) Soyut kavramları, tipik olarak doğal dildeki sözcükleri veya ifadeleri, somut temsillere bağlamak Bir görüntüdeki pikseller veya bir robottan gelen duyusal veriler gibi fiziksel dünya. Daha basit bir ifadeyle, eğer bir bilgisayar "uyuyan bir kedi" metni, topraklama bir fotoğrafa bakıp belirli bir bölgeyi tanımlama becerisidir kedinin bulunduğu yer. Bu yetenek, dilsel semboller ile algısal semboller arasındaki anlamsal boşluğu doldurur. olarak bilinen bir meydan okuma olan bilgi Bilişsel bilimde sembol temellendirme sorunu. Bir yandan geleneksel sistemler metin ve görüntüleri ayrı ayrı işleyebilirken, topraklama arasındaki ilişkiyi anlamak için multimodal yapay zeka ikisini birleştirerek daha sezgisel insan-makine etkileşimini kolaylaştırır.

Topraklama Mekaniği

Teknik düzeyde, topraklama yüksek boyutlu vektör uzaylarının hizalanmasına dayanır. Modern modeller şunları kullanır Derin Öğrenme (DL) mimarileri, özellikle Transformer, hem metinleri hem de görüntüleri gömme adı verilen sayısal temsiller. Sırasında eğitiminde, model bir metin ifadesinin (örneğin, "kırmızı araba") gömülmesini aşağıdaki ifadelerin gömülmesine yakın bir şekilde eşleştirmeyi öğrenir o nesneye karşılık gelen görsel özellikler.

Bu süreç Açık Kelime Tespitini mümkün kılar. Standarttan farklı olarak sabit bir listeyle sınırlı olan nesne algılama Önceden eğitilmiş sınıfların ( COCO'daki 80 sınıf gibi), topraklama modelleri bir metin tarafından tanımlanan herhangi bir nesneyi tanımlayabilir istemi. Bu, sıfır atışlı öğrenmeyi kullanır, burada Model, eğitim sırasında daha önce açıkça görmediği nesneleri sadece dili anlayarak tanımlar onları tanımlamak. OpenAI gibi kuruluşların CLIP üzerine yaptığı araştırmalar bu görsel ve metinsel temsillerin hizalanması için zemin hazırlar.

Gerçek Dünya Uygulamaları

Topraklama, makinelerin kullanıcı niyetini yorumlama ve çevreleriyle etkileşim kurma şeklini dönüştürür.

  • Robotik ve Otonom Ajanlar: Bu alanda Robotikte Yapay Zeka, topraklama aşağıdakiler için gereklidir doğal dil komutlarını yürütür. Eğer bir kullanıcı bir hizmet robotuna "elmayı "kupa", robot "elma", "kupa" kelimelerini ve uzamsal ilişkiyi topraklamalıdır kamera beslemesindeki belirli fiziksel koordinatların "yanında". Bu, dinamik görev yürütmeye izin verir yapılandırılmamış ortamlar, IEEE'deki robotik araştırmalarının önemli bir odak noktasıdır.
  • Anlamsal Arama ve Erişim: Temel güçler gelişmiş semantik arama motorları. Eşleştirmek yerine anahtar kelimelerle, bir sistem bir video veritabanında "sola dönen bir bisikletçi" gibi karmaşık sorgular için arama yapabilir. gün batımı." Motor, sorguyu video dosyalarının görsel içeriğine dayandırarak kesin sonuçlar elde eder zaman damgaları. Bu teknoloji, aşağıdakiler için araçları geliştirir video anlayışı ve dijital varlık Yönetim.

Ultralytics YOLO ile Topraklama

Bu ultralytics paketi topraklamayı şu yolla destekler YOLO model. Bu model kullanıcıların metin istemlerini kullanarak anında özel sınıflar tanımlamasına olanak tanıyarak metni etkin bir şekilde yeniden eğitim olmadan görüntü.

Aşağıdaki örnekte, önceden eğitilmiş bir modelin nasıl yükleneceği ve belirli bir modeli detect etmek için özel istemlerin nasıl tanımlanacağı gösterilmektedir nesneler:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source
results = model.predict("bus.jpg")

# Show results to see bounding boxes around the grounded objects
results[0].show()

Topraklamayı İlgili Kavramlardan Ayırt Etme

Topraklamayı anlamak için onu benzer bilgisayarla görme görevlerinden ayırmak faydalı olacaktır:

  • Nesne Tespitine karşı: tarafından gerçekleştirilenler gibi standart tespit YOLO11, kapalı bir kategori kümesinden nesneleri tanımlar (örneğin, 'kişi', 'araba'). Topraklama açık uçludur ve serbest biçimli metin açıklamalarına dayalı olarak nesneleri detect edebilir. eğitim verilerinde mevcut.
  • vs. Resim Altyazısı: Resim yazısı, bir resimden bir metin açıklaması oluşturur (Resim $\to$ Metin). Topraklama tipik olarak ters ya da çift yönlü çalışır, görsel öğeleri konumlandırır metin girişine dayalı olarak (Metin $\to$ Görüntü Bölgesi).
  • Semantik Segmentasyona karşı: Bir yandan semantik segmentasyon her pikseli bir kategoriye sokar, ancak bu pikselleri belirli dilsel ifadelere veya farklı örneklere doğal olarak bağlamaz karmaşık niteliklerle tanımlanır (örneğin, "parlak kırmızı elma" vs. sadece "elma").

Güncel Zorluklar

Gelişmelere rağmen, topraklama hesaplama açısından yoğun olmaya devam etmektedir. Büyük dil modellerini vizyon ile hizalama kodlayıcılar önemli ölçüde GPU kaynakları. Ayrıca, modeller belirsizlikle mücadele edebilir; "banka" ifadesi bir nehir kıyısına veya bir finans kurumuna atıfta bulunabilir, yapay zekanın bağlam pencerelerine güvenmesini gerektirir. doğru görsel topraklamayı çözün.

Bu modellerin aşağıdakiler için verimli çalışmasını sağlamak gerçek zamanlı çıkarım devam eden bir çalışma alanıdır gelişim. Araştırmacılar ayrıca şunları da ele alıyor topraklama modellerinin genelleştirilmesini sağlamak için veri yanlılığı farklı kültürler ve bağlamlar arasında adil bir şekilde, sık sık tartışılan bir konu YZ literatüründe etik.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın