Sözlük

Çok Modlu Öğrenme

Yapay Zeka'da Çok Modlu Öğrenmenin gücünü keşfedin! Modellerin daha zengin, gerçek dünya problemlerini çözmek için farklı veri türlerini nasıl entegre ettiğini keşfedin.

Çok Modlu Öğrenme, Yapay Zeka (AI) ve Makine Öğreniminin (ML), modalite olarak bilinen birden fazla farklı veri türünden gelen bilgileri işleyebilen ve entegre edebilen modeller tasarlamaya ve eğitmeye odaklanan bir alt alanıdır. Yaygın modaliteler arasında metin, görüntüler(Bilgisayarla Görme (CV)), ses(Konuşma Tanıma), video ve sensör verileri (LiDAR veya sıcaklık okumaları gibi) bulunur. Çok Modlu Öğrenmenin temel amacı, farklı veri kaynaklarında bulunan tamamlayıcı bilgilerden yararlanarak karmaşık senaryoları daha bütünsel, insan benzeri bir şekilde anlayabilen yapay zeka sistemleri oluşturmaktır.

Tanım ve Temel Kavramlar

Çok Modlu Öğrenme, farklı veri türleri arasındaki ilişkileri ve korelasyonları anlamak için algoritmaların eğitilmesini içerir. Öğrenme süreci, her bir modaliteyi tek başına analiz etmek yerine, bilgileri etkili bir şekilde birleştirmeye veya kaynaştırmaya yönelik tekniklere odaklanır. Anahtar kavramlar şunları içerir:

Bilgi Füzyonu: Bu, farklı modalitelerden gelen bilgileri birleştirmek için kullanılan yöntemleri ifade eder. Füzyon çeşitli aşamalarda gerçekleşebilir: erken (ham verilerin birleştirilmesi), ara (her bir modaliteden çıkarılan özelliklerin birleştirilmesi) veya geç (her bir modalite üzerinde eğitilen ayrı modellerin çıktılarının birleştirilmesi). Etkili bilgi füzyonu, her bir veri türünün güçlü yönlerinden yararlanmak için çok önemlidir.
Çapraz-Modal Öğrenme: Bu, bir modaliteden gelen bilginin diğerinden bilgi çıkarmak veya almak için kullanılabileceği temsillerin öğrenilmesini içerir (örneğin, görüntülerden metin başlıkları oluşturmak).
Veri Hizalama: Farklı modalitelerdeki karşılık gelen bilgi parçalarının doğru şekilde eşleştirilmesini sağlamak (örneğin, bir ses parçasındaki konuşulan kelimeleri bir videodaki karşılık gelen görsel karelerle hizalamak). Doğru veri hizalama genellikle etkili füzyon için bir ön koşuldur.

Çok Modlu Öğrenme, çeşitli girdileri işlemek için uyarlanmış Dönüştürücüler ve Evrişimli Sinir Ağları (CNN'ler) gibi mimarileri kullanarak Derin Öğrenme (DL) tekniklerine büyük ölçüde dayanır ve genellikle aşağıdaki gibi çerçeveler kullanır PyTorch PyTorch resmi sitesi) veya TensorFlow TensorFlow resmi sitesi).

Uygunluk ve Uygulamalar

Çok Modlu Öğrenmenin önemi, bilginin doğası gereği çok yönlü olduğu karmaşık, gerçek dünya sorunlarının üstesinden gelebilen daha sağlam ve çok yönlü YZ sistemleri oluşturma yeteneğinden kaynaklanmaktadır. Günümüzde büyük Temel Modeller de dahil olmak üzere birçok gelişmiş YZ modeli, çok modlu yeteneklerden yararlanmaktadır.

İşte Çok Modlu Öğrenmenin nasıl uygulandığına dair birkaç somut örnek:

Görme Dili Modelleri (VLM'ler): Bu modeller görsel ve metinsel bilgileri bütünleştirir. Uygulamalar arasında görüntüler için otomatik olarak açıklayıcı başlıklar oluşturma(görüntü altyazısı oluşturma), bir görüntünün içeriğiyle ilgili soruları yanıtlama(görsel soru yanıtlama (VQA)) ve daha doğal insan-bilgisayar etkileşimi sağlama yer alır. Son örnekler arasında Google'ın PaliGemma 2 ve Microsoft'un Florence-2 gibi modelleri yer almaktadır.
Geliştirilmiş Duygu Analizi: Geleneksel duygu analizi genellikle yalnızca metne dayanır. Çok modlu yaklaşımlar, görsel ipuçlarını (bir video incelemesindeki yüz ifadeleri gibi) veya işitsel bilgileri (konuşmadaki ses tonu gibi) dahil ederek doğruluğu önemli ölçüde artırabilir. Bu, ifade edilen duygu veya görüşün daha zengin bir şekilde anlaşılmasını sağlar. Daha fazla ayrıntı için multimodal duygu analizi üzerine yapılan araştırmaları inceleyebilirsiniz.

Diğer önemli uygulamalar arasında Waymo gibi şirketler tarafından kamera, LiDAR ve radar verilerinin birleştirildiği otonomsürüş (sürücüsüz araçlarda YZ), görüntüleme verilerini hasta kayıtlarıyla birleştiren Tıbbi Görüntü Analizi ve robotların çevreleriyle etkileşim kurmak için görsel, işitsel ve dokunsal bilgileri entegre ettiği robotikteki YZ uygulamaları yer almaktadır ( Robotik).

Temel Farklılıklar

Çok Modlu Öğrenmeyi ilgili terimlerden ayırmak faydalı olacaktır:

Çok Modlu Modeller: Çok Modlu Öğrenme, birden fazla veri türü kullanarak yapay zekayı eğitmekle ilgili bir süreç veya çalışma alanıdır. Çok Modlu Modeller, bu teknikler kullanılarak tasarlanan ve eğitilen yapay zeka sistemleri veya mimarileridir.
Bilgisayarla Görme (CV): CV yalnızca görsel verilerin (görüntüler, videolar) işlenmesi ve anlaşılmasına odaklanır. Multi-Modal Öğrenme, görsel verileri metin veya ses gibi diğer modalitelerle entegre ederek CV'nin ötesine geçer.
Doğal Dil İşleme (NLP): NLP insan dilini (metin, konuşma) anlama ve üretme ile ilgilenir. Çok Modlu Öğrenme, dil verilerini görüntüler veya sensör okumaları gibi diğer modalitelerle bütünleştirir.
Temel Modeller: Bunlar, büyük miktarda veri üzerinde önceden eğitilmiş, genellikle çeşitli alt görevlere uyarlanabilecek şekilde tasarlanmış büyük ölçekli modellerdir. GPT-4 gibi birçok modern temel model, çok modlu yetenekler içerir, ancak kavramlar farklıdır; Çok Modlu Öğrenme, bu güçlü modellerin oluşturulmasında sıklıkla kullanılan bir metodolojidir.

Zorluklar ve Gelecek Yönelimleri

Çok Modlu Öğrenme, farklı kaynaklardan gelen verilerin etkili bir şekilde hizalanması, optimum birleştirme stratejilerinin geliştirilmesi ve bir veya daha fazla modalitede eksik veya gürültülü verilerin ele alınması gibi benzersiz zorluklar sunar. Çok modlu öğrenmede bu zorlukların ele alınması aktif bir araştırma alanı olmaya devam etmektedir.

Bu alan hızla gelişmekte, dünyayı insanlar gibi algılayan ve muhakeme eden yapay zeka sistemlerine doğru sınırları zorlamakta ve potansiyel olarak Yapay Genel Zeka'nın (AGI) gelişimine katkıda bulunmaktadır. Ultralytics HUB gibi platformlar şu anda aşağıdaki gibi modeller kullanarak öncelikle bilgisayarla görme görevlerine odaklanan iş akışlarını kolaylaştırırken Ultralytics YOLO (örn, Ultralytics YOLOv8) Nesne Algılama için, daha geniş yapay zeka ortamı, çok modlu yeteneklerin artan entegrasyonuna işaret ediyor. Yeni model yetenekleri ve uygulamalarıyla ilgili güncellemeler için Ultralytics Blog 'a göz atın. Alana daha geniş bir genel bakış için, Çok Modlu Öğrenme hakkındaki Wikipedia sayfası daha fazla okuma sunar.

Çok Modlu Öğrenme

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

İnovasyonunuza güç katacak esnek kurumsal lisanslama çözümü

Yapay zeka modellerini saniyeler içinde eğitin Ultralytics YOLO

Ultralytics HUB ile YOLO modellerini kolayca eğitin

Tanım ve Temel Kavramlar

Uygunluk ve Uygulamalar

Temel Farklılıklar

Zorluklar ve Gelecek Yönelimleri

Daha fazla blog okuyun

Ultralytics topluluğuna katılın

Çok Modlu Öğrenme

YOLO modellerini Ultralytics HUB ile basitçeeğitin

İnovasyonunuza güç katacak esnek kurumsal lisanslama çözümü

Yapay zeka modellerini saniyeler içinde eğitin Ultralytics YOLO

Ultralytics HUB ile YOLO modellerini kolayca eğitin

Tanım ve Temel Kavramlar

Uygunluk ve Uygulamalar

Temel Farklılıklar

Zorluklar ve Gelecek Yönelimleri

Daha fazla blog okuyun

Ultralytics topluluğuna katılın

YOLO modellerini Ultralytics HUB ile basitçe
eğitin