Yapay zekada temellendirmenin soyut kavramları gerçek dünya verileriyle nasıl ilişkilendirdiğini, dinamik uygulamalarda bağlamı, doğruluğu ve güveni nasıl artırdığını keşfedin.
Topraklama aşağıdaki süreçtir Yapay Zeka (AI) Soyut kavramları, tipik olarak doğal dildeki sözcükleri veya ifadeleri, somut temsillere bağlamak Bir görüntüdeki pikseller veya bir robottan gelen duyusal veriler gibi fiziksel dünya. Daha basit bir ifadeyle, eğer bir bilgisayar "uyuyan bir kedi" metni, topraklama bir fotoğrafa bakıp belirli bir bölgeyi tanımlama becerisidir kedinin bulunduğu yer. Bu yetenek, dilsel semboller ile algısal semboller arasındaki anlamsal boşluğu doldurur. olarak bilinen bir meydan okuma olan bilgi Bilişsel bilimde sembol temellendirme sorunu. Bir yandan geleneksel sistemler metin ve görüntüleri ayrı ayrı işleyebilirken, topraklama arasındaki ilişkiyi anlamak için multimodal yapay zeka ikisini birleştirerek daha sezgisel insan-makine etkileşimini kolaylaştırır.
Teknik düzeyde, topraklama yüksek boyutlu vektör uzaylarının hizalanmasına dayanır. Modern modeller şunları kullanır Derin Öğrenme (DL) mimarileri, özellikle Transformer, hem metinleri hem de görüntüleri gömme adı verilen sayısal temsiller. Sırasında eğitiminde, model bir metin ifadesinin (örneğin, "kırmızı araba") gömülmesini aşağıdaki ifadelerin gömülmesine yakın bir şekilde eşleştirmeyi öğrenir o nesneye karşılık gelen görsel özellikler.
Bu süreç Açık Kelime Tespitini mümkün kılar. Standarttan farklı olarak sabit bir listeyle sınırlı olan nesne algılama Önceden eğitilmiş sınıfların ( COCO'daki 80 sınıf gibi), topraklama modelleri bir metin tarafından tanımlanan herhangi bir nesneyi tanımlayabilir istemi. Bu, sıfır atışlı öğrenmeyi kullanır, burada Model, eğitim sırasında daha önce açıkça görmediği nesneleri sadece dili anlayarak tanımlar onları tanımlamak. OpenAI gibi kuruluşların CLIP üzerine yaptığı araştırmalar bu görsel ve metinsel temsillerin hizalanması için zemin hazırlar.
Topraklama, makinelerin kullanıcı niyetini yorumlama ve çevreleriyle etkileşim kurma şeklini dönüştürür.
Bu ultralytics paketi topraklamayı şu yolla destekler YOLO model. Bu model
kullanıcıların metin istemlerini kullanarak anında özel sınıflar tanımlamasına olanak tanıyarak metni etkin bir şekilde
yeniden eğitim olmadan görüntü.
Aşağıdaki örnekte, önceden eğitilmiş bir modelin nasıl yükleneceği ve belirli bir modeli detect etmek için özel istemlerin nasıl tanımlanacağı gösterilmektedir nesneler:
from ultralytics import YOLO
# Load a pre-trained YOLO-World model
model = YOLO("yolov8s-world.pt")
# Define custom text prompts (classes) to ground in the image
# The model will look specifically for these descriptions
model.set_classes(["person wearing hat", "blue backpack"])
# Run prediction on an image source
results = model.predict("bus.jpg")
# Show results to see bounding boxes around the grounded objects
results[0].show()
Topraklamayı anlamak için onu benzer bilgisayarla görme görevlerinden ayırmak faydalı olacaktır:
Gelişmelere rağmen, topraklama hesaplama açısından yoğun olmaya devam etmektedir. Büyük dil modellerini vizyon ile hizalama kodlayıcılar önemli ölçüde GPU kaynakları. Ayrıca, modeller belirsizlikle mücadele edebilir; "banka" ifadesi bir nehir kıyısına veya bir finans kurumuna atıfta bulunabilir, yapay zekanın bağlam pencerelerine güvenmesini gerektirir. doğru görsel topraklamayı çözün.
Bu modellerin aşağıdakiler için verimli çalışmasını sağlamak gerçek zamanlı çıkarım devam eden bir çalışma alanıdır gelişim. Araştırmacılar ayrıca şunları da ele alıyor topraklama modellerinin genelleştirilmesini sağlamak için veri yanlılığı farklı kültürler ve bağlamlar arasında adil bir şekilde, sık sık tartışılan bir konu YZ literatüründe etik.

