YOLO26 ile tanış: yeni nesil görsel AI.
Ultralytics
Ultralytics Sözlüğüne dön

Grounding

Yapay zekada temelden bağlama (grounding) kavramlarını keşfet. Ultralytics YOLO26 ve açık kelime dağarcığı tespiti için YOLO-World kullanarak doğal dili görsel verilerle nasıl bağlayacağını öğren.

Grounding, bir yapay zeka sisteminin genellikle doğal dilden türetilen soyut kavramları; görsel veri veya duyusal girdiler gibi fiziksel dünyadaki belirli, somut temsillerle ilişkilendirme yeteneğini ifade eder. Bilgisayarlı görü bağlamında bu, bir modelin sadece metni işlemediği; "köpeğini gezdiren bir insan" gibi bir ifadeyi çözümleyebildiği ve bu varlıkları bir görüntü veya video akışı içinde hassas bir şekilde yerelleştirebildiği anlamına gelir. Bu süreç, bilişsel bilimdeki temel sembol temellendirme problemi ni (symbol grounding problem) ele alarak sembolik akıl yürütme ile piksel düzeyinde algı arasındaki boşluğu kapatır. Dilsel belirteçleri görsel özelliklere bağlayarak grounding, modern multimodal AI için bir temel taşı görevi görür ve makinelerin dinamik insan ortamlarıyla daha sezgisel bir şekilde etkileşime girmesini sağlar.

Link to this sectionGrounding'in Mekanikleri#

At a technical level, grounding involves aligning data from different modalities into a shared high-dimensional vector space. Advanced architectures, often built upon the Transformer framework used in natural language processing (NLP), generate numerical representations known as embeddings for both text descriptions and visual inputs. During training, the model learns to minimize the distance between the embedding of a text prompt (e.g., "blue backpack") and the embedding of the corresponding visual region.

Bu hizalama, Açık Sözcüklü Tespit (Open-Vocabulary Detection) imkanı sağlar. Bir modelin sabit bir kategori kümesiyle sınırlı olduğu geleneksel denetimli öğrenmenin aksine, grounding sıfır örnekli öğrenmeyi (zero-shot learning) mümkün kılar. Temellendirilmiş (grounded) bir model, eğitim sırasında açıkça görmediği nesneleri, eğer onları tanımlayan dili anlıyorsa tanımlayabilir. Bu esneklik, bu multimodal hizalamalar için gereken karmaşık matris işlemlerini kolaylaştıran PyTorch gibi derin öğrenme çerçeveleri tarafından desteklenir.

Link to this sectionGerçek Dünya Uygulamaları#

Grounding teknolojisi, sistemlerin kullanıcı niyetini yorumlamasına ve yapılandırılmamış ortamlarda etkili bir şekilde gezinmesine olanak tanıyarak endüstrileri yeniden şekillendiriyor.

  • Robotikte AI: Grounding, sözlü komutları yerine getiren otonom ajanlar için elzemdir. Eğer bir depo robotuna "en üst raftaki paketi al" denilirse, "paket" ve "en üst raf" kavramlarını görüş alanındaki belirli 3D koordinatlara temellendirmesi gerekir. Bu yetenek, MIT CSAIL'deki robotik araştırmalarının önemli bir odak noktasıdır ve robotların insanlar arasında güvenli bir şekilde çalışmasını sağlar.
  • Anlamsal Arama ve Medya Erişimi: Grounding, anahtar kelime eşleşmesinin ötesine geçen gelişmiş arama motorlarına güç verir. Kullanıcılar video arşivlerinde "gün batımında sola dönen bir bisikletli" gibi karmaşık tanımlamalarla sorgulama yapabilir ve sistem, belirli zaman damgalarını geri getirmek için grounding kullanır. Bu durum, güvenlik ve medya yönetimi için video anlama kapasitesini önemli ölçüde artırır.
  • Yardımcı Teknolojiler: Görme engelli kullanıcılar için grounding, uygulamaların çevreyi gerçek zamanlı olarak tanımlamasını veya ses üretimi ile bağlantılı güçlü bir görüntü tanıma teknolojisine dayanarak ortam hakkında sorulan soruları yanıtlamasını sağlar.

Link to this sectionUltralytics YOLO-World ile Grounding#

Ultralytics ekosistemi, YOLO-World gibi özel mimariler aracılığıyla grounding'i destekler. Standart modeller belirli veri kümeleri üzerinde eğitim gerektirirken, YOLO-World kullanıcıların metin istemlerini kullanarak özel tespit sınıflarını anında tanımlamasına olanak tanır. Bu, doğal dil girdisini yeniden eğitime gerek kalmadan doğrudan görüntü üzerine "temellendirir".

Aşağıdaki örnek, özel metin tanımlamalarına dayalı nesneleri tespit etmek için ultralytics paketinin nasıl kullanılacağını göstermektedir:

from ultralytics import YOLO

# Load a pre-trained YOLO-World model for open-vocabulary detection
model = YOLO("yolov8s-world.pt")

# Define custom text prompts (classes) to ground in the image
# The model maps these descriptions to visual features
model.set_classes(["person wearing hat", "blue backpack"])

# Run prediction on an image source to localize the described objects
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Link to this sectionGrounding'i İlgili Kavramlardan Ayırmak#

Grounding'in faydasını tam olarak takdir etmek için, onu benzer bilgisayarlı görü görevlerinden ayırmak yararlıdır:

  • vs. Nesne Tespiti: En son teknoloji ürünü YOLO26 gibi geleneksel tespit modelleri, kapalı ve önceden tanımlanmış bir kategori kümesinden (örneğin COCO'daki 80 sınıf) nesneleri tanımlar. Grounding ise açık uçludur ve nesneleri serbest biçimli metinlere dayalı olarak tanımlar.
  • vs. Görüntü Açıklama (Image Captioning): Açıklama oluşturma, tüm görüntü için tanımlayıcı bir cümle üretir (Görüntü $\to$ Metin). Grounding ise tipik olarak ters yönde veya çift yönlü çalışarak, metin girdisine dayalı olarak belirli görsel öğeleri bulur (Metin $\to$ Görüntü Bölgesi).
  • vs. Görsel Soru Cevaplama (VQA): VQA, bir görüntü hakkında belirli bir soruyu yanıtlamayı içerir (örneğin "Arabanın rengi nedir?"). Grounding ise özellikle yerelleştirme adımına odaklanır; bahsedilen nesnenin etrafına bir sınırlayıcı kutu (bounding box) çizer.

Link to this sectionZorluklar ve Gelecek Görünümü#

Gelişmelere rağmen, grounding hesaplama açısından yoğun olmaya devam ediyor. Devasa dil modellerini vizyon kodlayıcılarla hizalamak, önemli ölçüde GPU kaynağı ve verimli bellek yönetimi gerektirir; bu, NVIDIA gibi donanım yenilikçileri tarafından sıklıkla ele alınan bir zorluktur. Ayrıca modeller, "bat" kelimesinin bir spor aleti mi yoksa bir hayvan mı anlamına geldiğini çözmek için geniş bağlam pencerelerine ihtiyaç duyarak dilsel belirsizlikle mücadele edebilir.

Gelecekteki gelişmeler, yerel olarak multimodal olan birleşik temel modellere doğru ilerliyor. Ultralytics Platform gibi araçlar, geliştiricilerin bu görevler için gereken karmaşık veri kümelerini yönetmelerine yardımcı olmak için evrimleşiyor ve veri etiketleme ve model dağıtımı için modern iş akışları sunuyor. Bu teknolojiler olgunlaştıkça, grounding'in uç cihazlara sorunsuz bir şekilde entegre edilmesini ve daha akıllı, daha duyarlı AI uygulamalarının ortaya çıkmasını bekleyebiliriz.

Explore solutions

Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin
Real-time AI that works with your team

Robotikte AI

Daha akıllı makineleri Ultralytics YOLO modelleriyle destekle. Robotikteki Vision AI; otonom navigasyonu, algılamayı, nesne takibini ve gerçek zamanlı kontrolü yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Lojistikte Yapay Zeka

Ultralytics YOLO modelleri ile lojistiği kolaylaştır. Görü Yapay Zekası; paket inceleme, ayıklama, araç takibi ve gerçek zamanlı depo güvenliği izlemeyi mümkün kılar.

Daha fazla bilgi edin
Real-time AI that works with your team

Perakendede AI

Perakendeyi Ultralytics YOLO modelleri ile yeniden hayal et. Görü Yapay Zekası; envanter takibi, raf izleme, sıra yönetimi ve daha akıllı müşteri içgörüleri sağlar.

Daha fazla bilgi edin
Real-time AI that works with your team

Sağlıkta Yapay Zeka

Ultralytics YOLO modelleriyle sağlık çözümleri oluştur. Sağlıkta görüntü tabanlı yapay zeka; daha hızlı tıbbi görüntülemeyi, daha akıllı teşhisleri ve hasta izlemeyi güçlendirir.

Daha fazla bilgi edin
Real-time AI that works with your team

Üretimde Yapay Zeka

Ultralytics YOLO modelleri ile üretimi optimize et. Görü Yapay Zekası; kalite kontrol, kusur tespiti, KKD uyumu ve montaj hattı otomasyonunu yönlendirir.

Daha fazla bilgi edin
Real-time AI that works with your operation

Otomotivde yapay zeka

Ultralytics YOLO modelleriyle otomotivde bilgisayarlı görü uygula. Görüntü tabanlı yapay zeka; yol güvenliğini, sürücü yardımını ve araç otomasyonunu daha akıllı yollar için geliştirir.

Daha fazla bilgi edin
Real-time AI tailored to your operation

Tarımda yapay zeka

Ultralytics YOLO modelleriyle akıllı tarıma görüntü tabanlı yapay zeka getir. Daha yüksek ve akıllı verimler için mahsul takibini, hayvancılık izlemeyi ve hassas tarımı güçlendir.

Daha fazla bilgi edin

Yapay zekanın geleceğini birlikte inşa edelim!

Yolculuğuna makine öğreniminin geleceğiyle başla