Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çok Modlu Yapay Zeka

Sistemlerin metin, görüntü ve ses gibi çeşitli verileri işlediği ve anladığı alan olan Çok Modlu YZ'yi keşfedin. Nasıl çalıştığını öğrenin ve temel uygulamaları keşfedin.

Çok modlu yapay zeka, birden fazla farklı veri türünden veya "modaliteden" gelen bilgileri aynı anda işlemek, yorumlamak ve sentezlemek için tasarlanmış gelişmiş bir yapay zeka (AI) sistemi türüdür. Tek bir girdi kaynağına odaklanan geleneksel tek modlu sistemlerin aksine —örneğin doğal dil işleme (NLP) veya görüntüler için bilgisayar görme (CV) gibi tek bir giriş kaynağına odaklanan geleneksel tek modlu sistemlerin aksine, multimodal AI çeşitli veri akışlarını entegre ederek insan algısını taklit eder. Bu, görsel verileri (görüntüler, videolar) dilbilimsel verilerle (metin, sesli kayıtlar) ve duyusal bilgilerle (LiDAR, radar, termal) birleştirmeyi içerebilir. Bu birleştirilmiş girdileri kullanarak, bu modeller karmaşık gerçek dünya senaryolarını daha derin ve bağlamsal olarak daha iyi anlar ve Yapay Genel Zeka (AGI) yeteneklerine daha da yaklaşır.

Çok Modlu Sistemlerin Temel Mekanizmaları

Multimodal AI'nın gücü, farklı veri türlerini paylaşılan bir matematiksel alana eşleme yeteneğinde yatmaktadır. Bu süreç genellikle üç ana aşamayı içerir: kodlama, füzyon ve kod çözme.

  1. Özellik Çıkarma: Her bir modaliteyi kodlamak için özel sinir ağları (NN) kullanılır. Örneğin, bir Convolutional Neural Network (CNN) görüntüyü işleyerek görsel özellikleri çıkarırken, bir Transformer eşlik eden metni işler.
  2. Gömme ve Hizalama: Çıkarılan özellikler, yüksek boyutlu sayısal vektörler olan gömmeleredönüştürülür. Model, anlamsal olarak benzer kavramların (örneğin, bir kedi fotoğrafı ve "kedi" kelimesi) vektör uzayında birbirine yakın konumlanacak şekilde bu vektörleri hizalar. Bu genellikle, OpenAI'nin CLIP gibi modellerde kullanılan kontrastif öğrenme gibi tekniklerle gerçekleştirilir.
  3. Füzyon: Sistem, hizalanmış verileri füzyon tekniklerini kullanarak birleştirir. Gelişmiş dikkat mekanizmaları, modelin bağlama bağlı olarak bir modalitenin diğerine göre önemini dinamik olarak tartmasını sağlar. Bu kavram, temel makale "Attention Is All You Need"de ayrıntılı olarak açıklanmıştır.

Gerçek Dünya Uygulamaları

Multimodal AI, çevreye bütünsel bir bakış açısı gerektiren sorunları çözerek endüstrilerde devrim yaratıyor.

  • Görsel Soru Yanıtlama (VQA): Bu uygulama, kullanıcıların doğal dil kullanarak görüntülere sorgu yapmasına olanak tanır. Örneğin, görme engelli bir kullanıcı bir kiler fotoğrafını gösterip "En üst rafta bir kutu çorba var mı?" diye sorabilir. Sistem, nesneleri tanımak için nesne algılama ve belirli soruyu anlamak için NLP kullanır ve sesli bir yanıt verir.
  • Otonom Araçlar: Otonom araçlar, güvenli bir şekilde seyir etmek için sensör füzyonuna dayanır. Kameralardan gelen görsel verileri LiDAR'dan gelen derinlik verileri ve radardan gelen hız verileriyle birleştirirler. Bu çok modlu yaklaşım, bir sensörün işlevini yerine getirememesi durumunda (örneğin, güneş parlaması nedeniyle kameranın kör olması), sistemin yine de detect ve yol güvenliğini sağlayabilmesini garanti eder.
  • Sağlık Hizmetlerinde Yapay Zeka: Modern tanı araçları, tıbbi görüntü analizini (röntgen, MRG) klinik notlar ve hasta geçmişi gibi yapılandırılmamış metin verileriyle birleştirir. Bu yöntemleri birlikte analiz ederek, doktorlar daha doğru risk değerlendirmeleri ve kişiselleştirilmiş tedavi planları elde edebilirler.

Ultralytics ile Açık Kelime Dağarcığı Algılama

Multimodal AI'nın pratik bir örneği, modelin önceden eğitilmiş sınıf listesi yerine keyfi metin komutlarına dayalı olarak nesneleri algıladığı açık sözlü nesne algılamadır. Ultralytics YOLO modeli, dilsel komutlar ile görsel tanıma arasındaki boşluğu doldurarak bu özelliği göstermektedir.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multimodal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person wearing a red hat", "blue backpack"])

# Run inference: The model aligns the text prompts with visual features in the image
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Visualize the multimodal detection results
results[0].show()

Anahtar Terimlerin Farklılaştırılması

"Multimodal AI"yi ilgili kavramlardan ayırmak, durumu daha iyi anlamak için yararlıdır:

  • Çok Modlu Öğrenme: Bu karışık veri türleri üzerinde algoritmaları eğitmenin akademik disiplini ve sürecini ifade eder. Çok modlu yapay zeka, bu öğrenme sürecinin pratik uygulaması veya sonucudur.
  • Büyük Dil Modelleri (LLM'ler): Geleneksel LLM'ler tek modeldir ve yalnızca metni işler. Birçoğu Görsel-Dil Modelleri (VLM'ler) olarak gelişse de, standart bir LLM, ek adaptörler olmadan görsel verileri işleyemez.
  • Özel Görme Modelleri: Son teknoloji ürünü Ultralytics gibi modeller, görsel görevlerde son derece uzmanlaşmış uzmanlardır. Genel bir multimodal model bir sahneyi genel olarak tanımlayabilirken, özel modeller yüksek hızda, hassas örnek segmentasyonu ve gerçek zamanlı kenar donanımında işleme konusunda mükemmeldir.

Gelecek Yönelimler

Bu alan, ayrı ağları bir araya getirmek yerine, başından itibaren doğal olarak çok modlu olan Temel Modeller'e doğru ilerlemektedir. Google gibi kuruluşların araştırmaları, AI'nın dünyayı algılama biçiminin sınırlarını zorlamaya devam etmektedir. Ultralytics, YOLO26'nın piyasaya sürülmesi, bu boru hatlarının görme bileşeninde verimlilik için yeni bir standart oluşturarak, multimodal sistemlerin görsel "gözlerinin" her zamankinden daha hızlı ve daha doğru olmasını sağlıyor.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın