Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Temellendirme (Grounding)

AI'da temel kavramları keşfedin. Ultralytics ve YOLO kullanarak doğal dili görsel verilere bağlayarak açık sözlük algılamayı öğrenin.

Topraklama, yapay zeka sisteminin soyut kavramları (genellikle doğal dilden türetilen) fiziksel dünyadaki görsel veriler veya duyusal girdiler gibi belirli, somut temsillerle ilişkilendirme yeteneğini ifade eder. Bilgisayar görüşü bağlamında bu, bir modelin sadece metni işlemekle kalmayıp, "köpeğini gezdiren bir kişi" gibi bir cümleyi ayrıştırarak bu varlıkları bir görüntü veya video akışında tam olarak konumlandırabileceği anlamına gelir. Bu süreç, sembolik akıl yürütme ile piksel düzeyinde algı arasındaki boşluğu doldurarak, bilişsel bilimlerdeki temel sembol temellendirme sorununu ele alır. Dilbilimsel simgeleri görsel özelliklerle ilişkilendirerek, temellendirme modern çok modlu yapay zekanın temel taşı olarak işlev görür ve makinelerin dinamik insan ortamlarıyla daha sezgisel bir şekilde etkileşime girmesini sağlar.

Topraklama Mekaniği

Teknik düzeyde, temellendirme, farklı modalitelerden gelen verileri paylaşılan yüksek boyutlu bir vektör uzayında hizalamayı içerir. Genellikle doğal dil işleme (NLP) kullanılan Transformer çerçevesine dayanan gelişmiş mimariler, hem metin açıklamaları hem de görsel girdiler için gömme olarak bilinen sayısal temsiller üretir. Eğitim sırasında model, bir metin komutunun (örneğin, "mavi sırt çantası") gömülmesi ile karşılık gelen görsel bölgenin gömülmesi arasındaki mesafeyi en aza indirgemeyi öğrenir.

Bu uyum, Açık Kelime Tespiti'ne olanak tanır. Modelin sabit bir kategori kümesiyle sınırlı olduğu geleneksel denetimli öğrenmeden farklı olarak, temellendirme sıfır atış öğrenmeyi mümkün kılar. Temellendirilmiş bir model, eğitim sırasında açıkça görmediği nesneleri, bunları tanımlayan dili anladığı sürece tanımlayabilir. Bu esneklik, PyTorch gibi derin öğrenme çerçeveleri tarafından desteklenir. PyTorchgibi derin öğrenme çerçeveleri tarafından desteklenir. Bu çerçeveler, bu multimodal hizalamalar için gerekli olan karmaşık matris işlemlerini kolaylaştırır.

Gerçek Dünya Uygulamaları

Topraklama teknolojisi, sistemlerin kullanıcı niyetini yorumlamasına ve yapılandırılmamış ortamlarda etkili bir şekilde gezinmesine olanak tanıyarak endüstrileri yeniden şekillendiriyor .

  • Robotik Alanında Yapay Zeka: Sözlü talimatları yerine getiren otonom ajanlar için temel oluşturma çok önemlidir. Bir depo robotuna "üst raftaki paketi al" talimatı verildiğinde, "paket" ve "üst raf" kavramlarını görüş alanındaki belirli 3D koordinatlara bağlamalıdır. Bu yetenek, MIT CSAIL'de robotik araştırmalarının ana odak noktasıdır ve robotların insanlar ile birlikte güvenli bir şekilde çalışmasını sağlar. Robotik Alanında Yapay Zeka: Temel oluşturma,
  • Anlamsal Arama ve Medya Alımı: Grounding, anahtar kelime eşleştirmenin ötesine geçen gelişmiş arama motorlarını destekler. Kullanıcılar, "gün batımında sola dönen bir bisikletçi" gibi karmaşık açıklamalarla video arşivlerinde arama yapabilir ve sistem, grounding'i kullanarak belirli zaman damgalarını alır. Bu, güvenlik ve medya yönetimi için video anlayışını önemli ölçüde geliştirir .
  • Yardımcı Teknoloji: Görme engelli kullanıcılar için, topraklama, uygulamaların konuşma üretimi ile bağlantılı sağlam görüntü tanıma özelliğine dayanarak çevreyi gerçek zamanlı olarak tanımlamasına veya çevre ile ilgili soruları yanıtlamasına olanak tanır.

Ultralytics YOLO ile Topraklama

Ultralytics , YOLO gibi özel mimariler aracılığıyla temel oluşturmayı destekler. Standart modeller belirli veri kümeleri üzerinde eğitim gerektirirken, YOLO kullanıcıların metin komutlarını kullanarak anında özel algılama sınıfları tanımlamasına olanak tanır. Bu, yeniden eğitim gerektirmeden doğal dil girdisini görüntüye etkili bir şekilde "temel" oluşturur.

Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics özel metin açıklamalarına dayalı detect için paket :

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Topraklamayı İlgili Kavramlardan Ayırt Etme

Topraklamanın yararını tam olarak anlamak için, onu benzer bilgisayar görme görevlerinden ayırmak faydalıdır:

  • vs. Nesne Algılama: En son teknoloji olan YOLO26 gibi geleneksel algılama modelleri, kapalı, önceden tanımlanmış bir kategori kümesinden (örneğin, COCO 80 sınıf) nesneleri tanımlar. Grounding ise açık uçludur ve serbest biçimli metne dayalı olarak nesneleri tanımlar.
  • vs. Görüntü Altyazısı: Altyazı, tüm görüntü için açıklayıcı bir cümle oluşturur (Görüntü $\to$ Metin). Temellendirme genellikle ters yönde veya çift yönlü olarak çalışır ve metin girdisine dayalı olarak belirli görsel öğeleri bulur (Metin $\to$ Görüntü Bölgesi).
  • vs. Görsel Soru Yanıtlama (VQA): VQA, bir görüntüyle ilgili belirli bir soruyu yanıtlamayı içerir (örneğin, "Arabanın rengi nedir?"). Grounding özellikle yerelleştirme adımına odaklanır — bahsedilen nesnenin etrafına bir sınır kutusu çizer.

Zorluklar ve Geleceğe Bakış

Gelişmelere rağmen, topraklama hesaplama açısından yoğun olmaya devam ediyor. Büyük dil modellerini görme kodlayıcılarıyla uyumlu hale getirmek önemli miktarda GPU ve verimli bellek yönetimi gerektirir. Bu zorluk genellikle NVIDIA gibi donanım yenilikçileri tarafından ele alınmaktadır. NVIDIA. Ayrıca modeller, dilbilimsel belirsizliklerle karşılaşabilir ve "bat" kelimesinin spor aleti mi yoksa hayvan mı olduğunu belirlemek için büyük bağlam pencereleri gerektirir. Bu tür zorluklar, dil ve görme modellerinin

Gelecekteki gelişmeler, doğal olarak çok modlu olan birleşik temel modellere doğru ilerliyor. Ultralytics gibi araçlar, geliştiricilerin bu görevler için gerekli olan karmaşık veri kümelerini yönetmelerine yardımcı olmak için gelişiyor ve veri açıklama ve model dağıtımı için kolaylaştırılmış iş akışları sunuyor. Bu teknolojiler olgunlaştıkça, temel bilgilerin uç cihazlara sorunsuz bir şekilde entegre edilmesini ve daha akıllı, daha duyarlı AI uygulamalarının ortaya çıkmasını bekleyebiliriz.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın