Çok Modlu Öğrenme
Yapay Zekada Çok Modlu Öğrenmenin gücünü keşfedin! Modellerin daha zengin, gerçek dünya problem çözümü için çeşitli veri türlerini nasıl entegre ettiğini inceleyin.
Çok modlu öğrenme, çok modlu öğrenmenin gelişmiş bir alt alanıdır.
algoritmaların olduğu makine öğrenimi (ML)
modaliteler olarak bilinen birden fazla farklı veri türünden gelen bilgileri işlemek, anlamak ve ilişkilendirmek için eğitilmiştir.
Geleneksel yapay zeka sistemleri genellikle tek bir girdi türüne odaklanırken - örneğin dil çevirisi için metin veya
görüntü tanıma-çok modluöğrenme taklitleri
Görsel veriler, sözlü ses, metinsel açıklamalar ve sensör gibi çeşitli duyusal girdileri entegre ederek insan bilişi
okumalar. Bu bütünsel yaklaşım şunları sağlar
geliştirmek için yapay zeka (AI)
Dünyanın daha derin ve bağlama duyarlı bir şekilde anlaşılması, daha sağlam ve çok yönlü tahmin modellerine yol açar.
Çok Modlu Entegrasyon Mekaniği
Çok modlu öğrenmedeki temel zorluk, farklı veri türlerini ortak bir matematiksel alana çevirmektir.
karşılaştırılabilir ve birleştirilebilirler. Bu süreç tipik olarak üç ana aşamadan oluşur: kodlama, hizalama ve birleştirme.
-
Kodlama: Uzmanlaşmış sinir ağları her bir modaliteyi bağımsız olarak işler. Mesela,
konvolüsyonel sinir ağları (CNN'ler)
veya Vision Transformers (ViTs) özü
görüntülerden özellikler
Tekrarlayan Sinir Ağları (RNN'ler) veya
Transformatörler işlem metni.
-
Hizalama: Model, bu farklı özellikleri ortak yüksek boyutlu vektörlerle eşleştirmeyi öğrenir
gömme olarak adlandırılır. Bu paylaşılan uzayda, vektör
"köpek" kelimesinin vektörü ile bir köpek resminin vektörü birbirine yaklaştırılır. Gibi teknikler
makaleler tarafından popüler hale getirilen kontrastlı öğrenme
OpenAI'nin CLIP'i gibi, burada çok önemlidir.
-
Füzyon: Son olarak, bir görevi yerine getirmek için bilgiler birleştirilir. Füzyon erken gerçekleşebilir (hammaddelerin birleştirilmesi
verileri), geç (nihai tahminlerin birleştirilmesi) veya ara hibrit yöntemler aracılığıyla
önemini tartmak için dikkat mekanizması
her bir modalitenin dinamik olarak.
Gerçek Dünya Uygulamaları
Çok modlu öğrenme, günümüzün en etkileyici yapay zeka atılımlarının çoğunun arkasındaki motordur.
farklı veri siloları.
-
Görsel Soru Yanıtlama (VQA): İçinde
Görsel Soru Yanıtlama (VQA), bir
Sistem bir görüntüyü analiz etmeli ve bu görüntü hakkında doğal dilde sorulan bir soruyu yanıtlamalıdır, örneğin
trafik ışığı?". Bu, modelin metnin semantiğini anlamasını ve trafik ışıklarını mekansal olarak konumlandırmasını gerektirir.
ilgili görsel unsurlar.
-
Otonom Navigasyon: Sürücüsüz araçlar büyük ölçüde
LiDAR nokta bulutlarından gelen verileri birleştiren sensör füzyonu,
güvenli bir şekilde seyretmek için kamera video beslemeleri ve radar. Bu çok modlu girdi, bir sensörün arızalanması durumunda (örn.
güneş parlaması nedeniyle kör olan kamera), diğerleri güvenliği sağlayabilir.
-
Sağlık Hizmetlerinde Teşhis:
Sağlık hizmetlerinde yapay zeka çok modlu öğrenmeyi kullanıyor
yapılandırılmamış metinsel hasta geçmişi ve genetik verilerle birlikte tıbbi görüntüleri (MRI veya X-ışınları gibi) analiz ederek.
Bu kapsamlı görünüm, doktorların daha doğru teşhisler koymasına yardımcı oluyor.
Nature Digital Medicine dergileri.
Ultralytics ile Çok Modlu Nesne Algılama
Standart nesne dedektörleri önceden tanımlanmış sınıflara dayanırken, çok modlu yaklaşımlar
YOLO, kullanıcıların nesneleri
açık kelime dağarcığı metin istemleri. Bu, metinsel kavramları görsel özelliklerle ilişkilendirmenin gücünü göstermektedir.
from ultralytics import YOLOWorld
# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")
# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])
# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show the results
results[0].show()
Anahtar Terimlerin Farklılaştırılması
Modern YZ'nin manzarasında gezinmek için, 'Çok Modlu Öğrenme'yi ilgili kavramlardan ayırmak yararlı olacaktır:
-
Çok Modlu Modeller:
"Çok Modlu Öğrenme" metodolojiyi ve çalışma alanını ifade eder. Bir "Çok Modlu
Model" ( GPT-4 veya Gemini gibi) belirli bir
Bu eğitim süreci sonucunda ortaya çıkan eser veya yazılım ürünü.
-
Bilgisayarla Görme (CV): Özgeçmiş
genellikle tek modludur ve yalnızca görsel verilere odaklanır. gibi bir model olsa da
Ultralytics YOLO11 son teknoloji ürünü bir CV aracıdır, bu
çıktıları ses veya metin verileriyle birleştirildiğinde çok modlu bir boru hattının parçası haline gelir.
-
Büyük Dil Modelleri (LLM'ler):
Geleneksel LLM'ler tek modludur ve yalnızca metin üzerinde eğitilir. Bununla birlikte, sektör "Büyük Çok Modlu Taşımacılığa" doğru kaymaktadır.
Modeller" (LMM'ler) gibi çerçeveler tarafından desteklenen bir eğilim olan görüntüleri ve metinleri yerel olarak işleyebilen
PyTorch ve TensorFlow.
Geleceğe Bakış
Çok modlu öğrenmenin gidişatı, aşağıdaki özelliklere sahip sistemlere işaret etmektedir
Yapay Genel Zeka (AGI)
özellikleri. Bu modeller, dili görsel ve fiziksel gerçeklikle başarılı bir şekilde temellendirerek
gerçek muhakemeye doğru istatistiksel korelasyon. Gibi kurumların araştırmaları
MIT CSAIL ve
Stanford Vakıf Modelleri Araştırma Merkezi, Türkiye'deki vakıf modellerini geliştirmeye devam ediyor.
Makinelerin karmaşık, çok duyulu ortamları nasıl algıladığı ve bunlarla nasıl etkileşime girdiğinin sınırları.