Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çok Modlu Model

Çok modlu modellerin metin, görüntü ve sesi nasıl entegre ettiğini keşfedin. Ultralytics gibi mimariler hakkında bilgi edinin ve Ultralytics görsel yapay zeka kullanın.

Çok modlu model, birden fazla farklı veri türü veya "modalite"den gelen bilgileri aynı anda işleyebilen, yorumlayabilen ve entegre edebilen gelişmiş bir yapay zeka (AI) sistemi türüdür. Geleneksel tek modlu sistemler tek bir alanda uzmanlaşırken (örneğin doğal dil işleme (NLP) gibi tek bir alanda uzmanlaşırken, çok modlu modeller görsel, işitsel ve dilsel ipuçlarını bir araya getirerek insan algısını taklit etmeyi amaçlar. Bu yakınsama, modelin dünyayı kapsamlı bir şekilde anlamasını sağlayarak, görsel bir sahne ile sözlü bir açıklama arasında karmaşık korelasyonlar kurmasını mümkün kılar. Bu yetenekler, Yapay Genel Zeka (AGI) hedefine ulaşmak için temel adımlar olarak kabul edilir.

Temel Mekanizmalar ve Mimari

Çok modlu bir modelin etkinliği, çeşitli veri türlerini ortak bir anlamsal alana eşleme yeteneğine bağlıdır. Bu süreç genellikle, giriş verilerinin temel anlamını yakalayan sayısal temsiller olan gömme yapıların oluşturulmasıyla başlar. Altyazılı videolar gibi eşleştirilmiş örneklerden oluşan büyük veri kümeleri üzerinde eğitilerek, model "kedi" kelimesinin metin gömülmesi ile "kedi" görüntüsünün vektör temsilini hizalamayı öğrenir. Bu, modelin verileri anlamasına ve verilerle ilgili kararlar almasına olanak tanır.

Bu entegrasyonu mümkün kılan birkaç önemli mimari kavram vardır:

  • Dönüştürücü Mimarisi: Birçok çok modlu sistem, farklı girdi parçalarının önemini dinamik olarak değerlendirmek için dikkat mekanizmaları kullanan dönüştürücülerden yararlanır. Bu, modelin metin istemindeki ilgili kelimelere karşılık gelen belirli görüntü bölgelerine odaklanmasını sağlar. Bu kavram, çığır açan araştırma makalesi "Attention Is All You Need"de ayrıntılı olarak ele alınmıştır.
  • Veri Füzyonu: Bu, farklı kaynaklardan gelen bilgileri birleştirme stratejisini ifade eder. Sensör füzyonu, ham verileri birleştirerek erken aşamada veya ayrı alt modellerin kararlarını birleştirerek geç aşamada gerçekleşebilir. PyTorch gibi modern çerçeveler PyTorch gibi modern çerçeveler, bu karmaşık boru hatlarını oluşturmak için gereken esnekliği sağlar.
  • Karşılaştırmalı Öğrenme: OpenAI'nin CLIP gibi modeller tarafından kullanılan teknikler, sistemin vektör uzayında eşleşen metin-görüntü çiftleri arasındaki mesafeyi en aza indirirken, eşleşmeyen çiftler arasındaki mesafeyi en üst düzeye çıkarmak için eğitir.

Gerçek Dünya Uygulamaları

Çoklu modlu modeller, tek modlu sistemlerin daha önce başaramadığı yetenekleri ortaya çıkarmıştır.

  • Görsel Soru Yanıtlama (VQA): Bu sistemler, kullanıcıların bir görüntü hakkında doğal dilde sorular sormasına olanak tanır. Örneğin, görme engelli bir kullanıcı kiler fotoğrafını yükleyip "En üst rafta bir kutu çorba var mı?" diye sorabilir. Model, nesne algılama özelliğini kullanarak öğeleri tanımlar ve NLP özelliğini kullanarak sorguyu anlar ve yararlı bir yanıt verir.
  • Otonom Araçlar: Otonom araçlar, gerçek zamanlı çok modlu ajanlar olarak işlev görür. Kameralardan gelen görsel beslemeleri, LiDAR'dan gelen derinlik bilgilerini ve radardan gelen hız verilerini birleştirirler. Bu yedeklilik, bir sensör hava koşulları nedeniyle engellendiğinde, diğerlerinin yol güvenliğini sağlayabilmesini garanti eder.
  • Açık Kelime Tespiti: Ultralytics YOLO gibi modeller, kullanıcıların sabit bir sınıf listesi yerine rastgele metin komutları kullanarak detect etmelerine olanak tanır. Bu, dilsel komutlar ile görsel tanıma arasındaki boşluğu doldurur.

Örnek: Açık Kelime Dağarcığı Algılama

Aşağıdaki örnekte, aşağıdakilerin nasıl kullanılacağı gösterilmektedir ultralytics açık sözlük algılama gerçekleştirmek için kütüphane, burada model metin komutlarını yorumlayarak görüntüdeki nesneleri tanımlar:

from ultralytics import YOLOWorld

# Load a pre-trained YOLO-World model capable of vision-language understanding
model = YOLOWorld("yolov8s-world.pt")

# Define custom classes using natural language text prompts
model.set_classes(["person wearing a hat", "blue backpack"])

# Run inference: The model aligns text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the detection results
results[0].show()

İlgili Terimlerden Farkları

"Çok Modlu Model"i AI sözlüğündeki ilgili kavramlardan ayırmak faydalıdır:

  • Çok Modlu Öğrenme: Bu , bu sistemleri eğitmek için kullanılan süreç ve makine öğrenimi (ML) tekniklerini ifade eder. Çok modlu model, bu öğrenme sürecinin sonucunda ortaya çıkan yapay ürün veya yazılım ürünüdür.
  • Büyük Dil Modelleri (LLM'ler): Geleneksel LLM'ler yalnızca metinleri işler. Birçoğu Görsel-Dil Modelleri (VLM'ler) haline gelse de, standart bir LLM tek modaldır.
  • Temel Modeller: Bu, birçok alt görevlere uyarlanabilen büyük ölçekli modelleri tanımlayan daha geniş bir kategoridir. Çok modlu bir model genellikle bir temel model olsa da, tüm temel modeller birden fazla modu işleyemez.

Çok Modlu Yapay Zekanın Geleceği

Bu alan, ses, video ve metin akışlarını gerçek zamanlı olarak işleyebilen sistemlere doğru hızla ilerlemektedir. Google gibi kuruluşların araştırmaları, makine algısının sınırlarını zorlamaya devam etmektedir. Ultralytics olarak, YOLO26 gibi yüksek performanslı görme omurgalarıyla bu ekosistemi destekliyoruz. Ultralytics olarak, YOLO26 gibi yüksek performanslı görme omurgalarıyla bu ekosistemi destekliyoruz. 2026 yılında piyasaya sürülen YOLO26, örnek segmentasyonu gibi görevler için üstün hız ve doğruluk sunarak, daha büyük çok modlu boru hatlarında verimli bir görsel bileşen görevi görüyor. Geliştiriciler, birleşik Ultralytics kullanarak bu karmaşık iş akışlarının verilerini, eğitimini ve dağıtımını yönetebilirler.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın