Çok Modlu Yapay Zeka
Sistemlerin metin, görüntü ve ses gibi çeşitli verileri işlediği ve anladığı alan olan Çok Modlu YZ'yi keşfedin. Nasıl çalıştığını öğrenin ve temel uygulamaları keşfedin.
Çok modlu yapay zeka, birden fazla farklı veri türünden veya
"modaliteden" gelen bilgileri aynı anda işlemek, yorumlamak ve sentezlemek için tasarlanmış
gelişmiş bir yapay zeka (AI) sistemi
türüdür. Tek bir girdi kaynağına odaklanan geleneksel tek modlu sistemlerin aksine
—örneğin
doğal dil işleme (NLP)
veya görüntüler için bilgisayar görme (CV) gibi
tek bir giriş kaynağına odaklanan geleneksel tek modlu sistemlerin aksine, multimodal AI çeşitli veri akışlarını entegre ederek insan algısını taklit eder. Bu, görsel
verileri (görüntüler, videolar) dilbilimsel verilerle (metin, sesli kayıtlar) ve duyusal bilgilerle (LiDAR, radar, termal) birleştirmeyi içerebilir.
Bu birleştirilmiş girdileri kullanarak, bu modeller karmaşık
gerçek dünya senaryolarını daha derin ve bağlamsal olarak daha iyi anlar ve
Yapay Genel Zeka (AGI) yeteneklerine daha da yaklaşır.
Çok Modlu Sistemlerin Temel Mekanizmaları
Multimodal AI'nın gücü, farklı veri türlerini paylaşılan bir matematiksel alana eşleme yeteneğinde yatmaktadır. Bu
süreç genellikle üç ana aşamayı içerir: kodlama, füzyon ve kod çözme.
-
Özellik Çıkarma: Her bir modaliteyi kodlamak için özel
sinir ağları (NN) kullanılır. Örneğin, bir
Convolutional Neural Network (CNN)
görüntüyü işleyerek görsel özellikleri çıkarırken, bir
Transformer eşlik eden metni işler.
-
Gömme ve Hizalama: Çıkarılan özellikler,
yüksek boyutlu sayısal vektörler olan gömmeleredönüştürülür.
Model, anlamsal olarak benzer kavramların (örneğin, bir kedi fotoğrafı ve
"kedi" kelimesi) vektör uzayında birbirine yakın konumlanacak şekilde bu vektörleri hizalar. Bu genellikle, OpenAI'nin CLIP gibi modellerde
kullanılan kontrastif öğrenme gibi tekniklerle
gerçekleştirilir.
-
Füzyon: Sistem, hizalanmış verileri füzyon tekniklerini kullanarak birleştirir.
Gelişmiş dikkat mekanizmaları, modelin bağlama bağlı olarak bir modalitenin diğerine göre önemini dinamik olarak tartmasını sağlar. Bu kavram, temel makale "Attention Is All You Need"de ayrıntılı olarak açıklanmıştır.
Gerçek Dünya Uygulamaları
Multimodal AI, çevreye bütünsel bir bakış açısı gerektiren sorunları çözerek endüstrilerde devrim yaratıyor.
-
Görsel Soru Yanıtlama (VQA):
Bu uygulama, kullanıcıların doğal dil kullanarak görüntülere sorgu yapmasına olanak tanır. Örneğin, görme engelli bir kullanıcı
bir kiler fotoğrafını gösterip "En üst rafta bir kutu çorba var mı?" diye sorabilir. Sistem,
nesneleri tanımak için nesne algılama ve
belirli soruyu anlamak için NLP kullanır ve sesli bir yanıt verir.
-
Otonom Araçlar:
Otonom araçlar, güvenli bir şekilde seyir etmek için sensör füzyonuna dayanır.
Kameralardan gelen görsel verileri LiDAR'dan gelen derinlik verileri ve radardan gelen hız verileriyle birleştirirler. Bu
çok modlu yaklaşım, bir sensörün işlevini yerine getirememesi durumunda (örneğin, güneş parlaması nedeniyle kameranın kör olması), sistemin
yine de detect ve
yol güvenliğini sağlayabilmesini garanti eder.
-
Sağlık Hizmetlerinde Yapay Zeka: Modern
tanı araçları,
tıbbi görüntü analizini (röntgen, MRG) klinik notlar ve hasta geçmişi gibi
yapılandırılmamış metin verileriyle birleştirir. Bu yöntemleri birlikte analiz ederek, doktorlar
daha doğru risk değerlendirmeleri ve kişiselleştirilmiş tedavi planları elde edebilirler.
Ultralytics ile Açık Kelime Dağarcığı Algılama
Multimodal AI'nın pratik bir örneği, modelin önceden eğitilmiş sınıf listesi yerine
keyfi metin komutlarına dayalı olarak nesneleri algıladığı açık sözlü nesne algılamadır.
Ultralytics YOLO modeli, dilsel komutlar ile görsel tanıma arasındaki boşluğu doldurarak bu
özelliği göstermektedir.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])
# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Visualize the multimodal detection results
results[0].show()
Anahtar Terimlerin Farklılaştırılması
"Multimodal AI"yi ilgili kavramlardan ayırmak, durumu daha iyi anlamak için yararlıdır:
-
Çok Modlu Öğrenme: Bu
karışık veri türleri üzerinde algoritmaları eğitmenin akademik disiplini ve sürecini ifade eder. Çok modlu yapay zeka,
bu öğrenme sürecinin pratik uygulaması veya sonucudur.
-
Büyük Dil Modelleri (LLM'ler):
Geleneksel LLM'ler tek modeldir ve yalnızca metni işler. Birçoğu Görsel-Dil Modelleri (VLM'ler) olarak gelişse de,
standart bir LLM, ek adaptörler olmadan görsel verileri işleyemez.
-
Özel Görme Modelleri: Son teknoloji ürünü
Ultralytics gibi modeller, görsel görevlerde
son derece uzmanlaşmış uzmanlardır. Genel bir multimodal model bir sahneyi genel olarak tanımlayabilirken, özel modeller
yüksek hızda, hassas
örnek segmentasyonu ve gerçek zamanlı
kenar donanımında işleme konusunda mükemmeldir.
Gelecek Yönelimler
Bu alan, ayrı ağları bir araya getirmek yerine,
başından itibaren doğal olarak çok modlu olan Temel Modeller'e doğru ilerlemektedir. Google gibi kuruluşların araştırmaları,
AI'nın dünyayı algılama biçiminin sınırlarını
zorlamaya devam etmektedir. Ultralytics,
YOLO26'nın piyasaya sürülmesi, bu boru hatlarının görme
bileşeninde verimlilik için yeni bir standart oluşturarak, multimodal sistemlerin görsel "gözlerinin" her zamankinden daha hızlı ve daha
doğru olmasını sağlıyor.