Multimodal AI'yı ve bağlam farkında anlayış için metin ve görseli nasıl entegre ettiğini keşfedin. Ultralytics ve açık sözlük modellerini kullanmayı bugün öğrenin.
Multimodal AI, birden fazla farklı veri türünden veya "modaliteden" gelen bilgileri aynı anda işlemek, yorumlamak ve sentezlemek için tasarlanmış gelişmiş bir yapay zeka (AI) sistemi türüdür. Tek bir girdi kaynağına odaklanan geleneksel unimodal sistemlerin aksine —örneğin doğal dil işleme (NLP) veya görüntüler için bilgisayar görme (CV) gibi, multimodal AI çeşitli veri akışlarını entegre ederek insan algısını taklit eder. Bu entegrasyon, görsel verileri (görüntüler, video) dilbilimsel verilerle (metin, sesli kayıt) ve duyusal bilgilerle (LiDAR, radar, termal) birleştirmeyi içerebilir. Bu birleştirilmiş girdilerden yararlanarak, bu modeller karmaşık gerçek dünya senaryolarını daha derin ve bağlamsal olarak daha iyi anlar ve genel yapay zeka (AGI) kapasitesine daha da yaklaşır.
Multimodal AI'nın temel gücü, farklı veri türlerini karşılaştırılabilecek ve birleştirilebilecek ortak bir matematiksel alana haritalama yeteneğinde yatmaktadır. Bu süreç genellikle üç temel aşamadan oluşur: kodlama, hizalama ve birleştirme.
Multimodal AI, tek modlu sistemlerle daha önce imkansız olan yetenekleri ortaya çıkarmış ve çeşitli endüstrilerde yenilikçiliği teşvik etmiştir.
Standart nesne algılayıcıları önceden tanımlanmış kategori listelerine dayanırken, YOLO gibi çok modlu yaklaşımlar, kullanıcıların açık sözcük dağarcığı metin komutlarını kullanarak detect olanak tanır. Bu, Ultralytics dilsel komutlar ile görsel tanıma arasındaki boşluğu doldurur.
Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics açık kelime dağarcığı gerçekleştirmek için kütüphane
modelin özel metin girdilerine dayalı olarak nesneleri algıladığı algılama:
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Modern makine öğreniminin dünyasında yolunuzu bulmak için, "Multimodal AI"yı ilgili kavramlardan ayırmak faydalıdır: :
Çok modlu yapay zekanın gidişatı, daha fazla muhakeme yeteneğine sahip sistemlere işaret ediyor. Dili görsel ve fiziksel gerçekliğe başarıyla dayandırarak, bu modeller istatistiksel korelasyonun ötesine geçerek gerçek bir anlayışa doğru ilerliyor. Google ve Stanford Center for Research on Foundation Models gibi kurumların araştırmaları, makinelerin karmaşık ortamları algılama yöntemlerinin sınırlarını zorlamaya devam ediyor.
Ultralytics olarak, bu gelişmeleri Ultralytics entegre ederek, kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve YOLO26'nın hızını multimodal girdilerin çok yönlülüğüyle birleştirerek, mevcut tüm modaliteleri kullanan çözümleri uygulamalarına olanak tanıyoruz. Ultralytics Ultralytics , kullanıcıların verileri yönetmelerine, modelleri eğitmelerine ve multimodal girdilerin çok yönlülüğüyle YOLO26'nın hızını birleştirerek mevcut tüm modaliteleri kullanan çözümleri uygulamalarına olanak tanıyor.