Çok modlu modellerin metin, görüntü ve sesi nasıl entegre ettiğini keşfedin. Ultralytics gibi mimariler hakkında bilgi edinin ve Ultralytics görsel yapay zeka kullanın.
Çok modlu model, birden fazla farklı veri türü veya "modalite"den gelen bilgileri aynı anda işleyebilen, yorumlayabilen ve entegre edebilen gelişmiş bir yapay zeka (AI) sistemi türüdür. Geleneksel tek modlu sistemler tek bir alanda uzmanlaşırken (örneğin doğal dil işleme (NLP) gibi tek bir alanda uzmanlaşırken, çok modlu modeller görsel, işitsel ve dilsel ipuçlarını bir araya getirerek insan algısını taklit etmeyi amaçlar. Bu yakınsama, modelin dünyayı kapsamlı bir şekilde anlamasını sağlayarak, görsel bir sahne ile sözlü bir açıklama arasında karmaşık korelasyonlar kurmasını mümkün kılar. Bu yetenekler, Yapay Genel Zeka (AGI) hedefine ulaşmak için temel adımlar olarak kabul edilir.
Çok modlu bir modelin etkinliği, çeşitli veri türlerini ortak bir anlamsal alana eşleme yeteneğine bağlıdır. Bu süreç genellikle, giriş verilerinin temel anlamını yakalayan sayısal temsiller olan gömme yapıların oluşturulmasıyla başlar. Altyazılı videolar gibi eşleştirilmiş örneklerden oluşan büyük veri kümeleri üzerinde eğitilerek, model "kedi" kelimesinin metin gömülmesi ile "kedi" görüntüsünün vektör temsilini hizalamayı öğrenir. Bu, modelin verileri anlamasına ve verilerle ilgili kararlar almasına olanak tanır.
Bu entegrasyonu mümkün kılan birkaç önemli mimari kavram vardır:
Çoklu modlu modeller, tek modlu sistemlerin daha önce başaramadığı yetenekleri ortaya çıkarmıştır.
Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics açık sözlük
algılama gerçekleştirmek için kütüphane, burada model metin komutlarını yorumlayarak görüntüdeki nesneleri tanımlar:
from ultralytics import YOLOWorld
# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])
# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the detection results
results[0].show()
"Çok Modlu Model"i AI sözlüğündeki ilgili kavramlardan ayırmak faydalıdır:
Bu alan, ses, video ve metin akışlarını gerçek zamanlı olarak işleyebilen sistemlere doğru hızla ilerlemektedir. Google gibi kuruluşların araştırmaları, makine algısının sınırlarını zorlamaya devam etmektedir. Ultralytics olarak, YOLO26 gibi yüksek performanslı görme omurgalarıyla bu ekosistemi destekliyoruz. Ultralytics olarak, YOLO26 gibi yüksek performanslı görme omurgalarıyla bu ekosistemi destekliyoruz. 2026 yılında piyasaya sürülen YOLO26, örnek segmentasyonu gibi görevler için üstün hız ve doğruluk sunarak, daha büyük çok modlu boru hatlarında verimli bir görsel bileşen görevi görüyor. Geliştiriciler, birleşik Ultralytics kullanarak bu karmaşık iş akışlarının verilerini, eğitimini ve dağıtımını yönetebilirler.