YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Temellendirme (Grounding)

Yapay zekada temellendirmenin soyut kavramları gerçek dünya verileriyle nasıl ilişkilendirdiğini, dinamik uygulamalarda bağlamı, doğruluğu ve güveni nasıl artırdığını keşfedin.

Grounding, yapay zekada doğal dilde ifade edilen kavramları diğer modalitelerdeki, en yaygın olarak da görüntüler veya videolar gibi görsel verilerdeki karşılık gelen verilere bağlama veya "temellendirme" görevini ifade eder. Basit bir ifadeyle, bir makineye "frizbi yakalayan köpek" gibi bir ifadenin belirli bir resim içinde neyi ifade ettiğini öğretmekle ilgilidir. Bu, dilbilimsel açıklamaları algısal dünyadaki belirli nesneler, özellikler ve ilişkilerle ilişkilendirerek basit tanımanın ötesine geçer. Grounding, soyut dil ile somut duyusal girdi arasındaki boşluğu kapatarak, dünyayla daha insan benzeri bir şekilde etkileşim kurabilen yapay zeka sistemleri oluşturmak için çok önemli bir yetenektir. Doğal Dil İşleme (NLP) ve Bilgisayarlı Görü (CV)'yü entegre eden gelişmiş çok modlu modellerin temel bir bileşenidir.

Temellendirme (Grounding) Nasıl Çalışır?

Grounding modelleri, görüntüleri metinsel açıklamalarla eşleştiren büyük veri kümeleri üzerinde eğitilir. Bu açıklamalar genellikle görüntülerdeki belirli alanlara veya nesnelere bağlı ayrıntılı ifadeler içerir ve bazen sınırlayıcı kutular ile tanımlanır. Tipik olarak Transformer tabanlı bir mimari kullanan model, hem metin hem de görüntü için zengin sayısal temsiller veya gömme vektörleri oluşturmayı öğrenir. Daha sonra, "sağdaki yüksek bina" ifadesinin temsilinin, görüntüdeki karşılık gelen piksel bölgesinin temsiline yakından eşleşmesi için bu gömme vektörlerini hizalamayı öğrenir. Bu süreç, sembollerin (kelimelerin) anlamlarını nasıl edindiğiyle ilgili felsefi ve teknik bir zorluk olan Sembol Temellendirme Problemi için temeldir. YOLO-World gibi modern modeller, grounding prensiplerinin pratik bir uygulaması olan açık kelime dağarcığı algılamasına öncülük etmektedir.

Gerçek Dünya Uygulamaları

Grounding, görsel sahnelerin incelikli bir şekilde anlaşılmasını gerektiren gelişmiş uygulamaları mümkün kılar.

  • İnteraktif Robotik: Robotikte, topraklama bir robotun doğal dil komutlarını izlemesini sağlar. Örneğin, bir kullanıcı bir depo robotuna "büyük mavi olanın arkasındaki küçük kırmızı kutuyu al" talimatını verebilir. Robotun yapay zekası, görevi doğru bir şekilde yürütmek için nesneleri, nitelikleri (küçük, kırmızı, büyük, mavi) ve uzamsal ilişkileri (arka) anlayarak bu tüm ifadeyi topraklamalıdır. Bu, üretim otomasyonundan sağlık hizmetlerinde yardımcı robotlara kadar uygulamalar için kritiktir.
  • Görsel Soru Cevaplama (VQA) ve Görüntü Arama: Bir sisteme "İtfaiye musluğunun yanına park etmiş arabanın rengi nedir?" diye sorduğunuzda, öncelikle görüntüde "araba" ve "itfaiye musluğu" ifadelerini bulması gerekir. Ancak o zaman arabanın rengini belirleyebilir ve soruyu yanıtlayabilir. Bu, daha sezgisel ve güçlü semantik arama araçlarını güçlendirir ve daha yardımcı sanal asistanlar geliştirilmesine yardımcı olur.

İlgili Kavramlardan Farklılıklar

Grounding'i diğer bilgisayarlı görü görevlerinden ayırmak önemlidir.

  • Nesne Tespiti: Standart nesne tespiti, önceden tanımlanmış sınıfların örneklerini (örneğin, 'kişi', 'bisiklet') sabit bir söz dağarcığından tanımlar. Buna karşılık, grounding açık sözlüklü bir görevdir. Nesneleri, standart dedektörlerin işleyemediği "güneşli bir günde bisiklete binen bir kişi" gibi serbest biçimli, açıklayıcı doğal dil temelinde konumlandırır.
  • Semantik Bölütleme (Semantic Segmentation): Bu görev, bir görüntüdeki her piksele bir sınıf etiketi atar (örneğin, tüm pikselleri 'gökyüzü', 'yol' veya 'ağaç' olarak etiketlemek). Grounding daha odaklıdır; yalnızca metin istemi tarafından açıklanan belirli nesneyi veya bölgeyi izole eder. Bir örnek bölütleme (instance segmentation) biçimi olan, referring expression segmentation adlı bir alt görevle daha yakından ilişkilidir.

Zorluklar ve Gelecek Yönelimler

Güçlü topraklama modelleri geliştirmek çeşitli zorluklar sunar. İnsan dilinin doğal belirsizliği ve zenginliği modellenmesi zordur. Gerekli büyük ölçekli, doğru bir şekilde etiketlenmiş veri kümeleri oluşturmak pahalı ve emek yoğundur; örneklere RefCOCO gibi veri kümeleri dahildir. Ayrıca, bu karmaşık modelleri eğitmek için gereken işlem kaynakları önemli olabilir ve genellikle dağıtık eğitim veya kapsamlı bulut eğitimi gerektirir. Modellerin gerçek zamanlı çıkarım için verimli bir şekilde performans gösterebilmesini sağlamak bir diğer önemli engeldir.

Genellikle arXiv gibi platformlarda yayınlanan gelecekteki araştırmalar, görülmemiş nesne açıklamalarına daha iyi genelleme yapmak için sıfır atışlı öğrenme gibi tekniklerle performansı iyileştirmeye odaklanmaktadır. Allen Yapay Zeka Enstitüsü (AI2) gibi kuruluşlar bu alanları aktif olarak araştırmaktadır. Temellendirme teknolojisi olgunlaştıkça, daha doğal insan-AI işbirliğini sağlayacak ve AI sistemlerini dünyanın gerçek, eyleme geçirilebilir bir anlayışına daha da yaklaştıracaktır.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı