Sözlük

Çok Modlu Öğrenme

Yapay Zeka'da Çok Modlu Öğrenmenin gücünü keşfedin! Modellerin daha zengin, gerçek dünya problemlerini çözmek için farklı veri türlerini nasıl entegre ettiğini keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Çok Modlu Öğrenme, Yapay Zeka (AI) ve Makine Öğreniminin (ML), modalite olarak bilinen birden fazla farklı veri türünden gelen bilgileri işleyebilen ve entegre edebilen modeller tasarlamaya ve eğitmeye odaklanan bir alt alanıdır. Yaygın modaliteler arasında metin, görüntüler(Bilgisayarla Görme (CV)), ses(Konuşma Tanıma), video ve sensör verileri (LiDAR veya sıcaklık okumaları gibi) bulunur. Çok Modlu Öğrenmenin temel amacı, farklı veri kaynaklarında bulunan tamamlayıcı bilgilerden yararlanarak karmaşık senaryoları daha bütünsel, insan benzeri bir şekilde anlayabilen yapay zeka sistemleri oluşturmaktır.

Tanım ve Temel Kavramlar

Çok Modlu Öğrenme, farklı veri türleri arasındaki ilişkileri ve korelasyonları anlamak için algoritmaların eğitilmesini içerir. Öğrenme süreci, her bir modaliteyi tek başına analiz etmek yerine, bilgileri etkili bir şekilde birleştirmeye veya kaynaştırmaya yönelik tekniklere odaklanır. Anahtar kavramlar şunları içerir:

  • Bilgi Füzyonu: Bu, farklı modalitelerden gelen bilgileri birleştirmek için kullanılan yöntemleri ifade eder. Füzyon çeşitli aşamalarda gerçekleşebilir: erken (ham verilerin birleştirilmesi), ara (her bir modaliteden çıkarılan özelliklerin birleştirilmesi) veya geç (her bir modalite üzerinde eğitilen ayrı modellerin çıktılarının birleştirilmesi). Etkili bilgi füzyonu, her bir veri türünün güçlü yönlerinden yararlanmak için çok önemlidir.
  • Çapraz-Modal Öğrenme: Bu, bir modaliteden gelen bilginin diğerinden bilgi çıkarmak veya almak için kullanılabileceği temsillerin öğrenilmesini içerir (örneğin, görüntülerden metin başlıkları oluşturmak).
  • Veri Hizalama: Farklı modalitelerdeki karşılık gelen bilgi parçalarının doğru şekilde eşleştirilmesini sağlamak (örneğin, bir ses parçasındaki konuşulan kelimeleri bir videodaki karşılık gelen görsel karelerle hizalamak). Doğru veri hizalama genellikle etkili füzyon için bir ön koşuldur.

Çok Modlu Öğrenme, çeşitli girdileri işlemek için uyarlanmış Dönüştürücüler ve Evrişimli Sinir Ağları (CNN'ler) gibi mimarileri kullanarak Derin Öğrenme (DL) tekniklerine büyük ölçüde dayanır ve genellikle aşağıdaki gibi çerçeveler kullanır PyTorchPyTorch resmi sitesi) veya TensorFlowTensorFlow resmi sitesi).

Uygunluk ve Uygulamalar

Çok Modlu Öğrenmenin önemi, bilginin doğası gereği çok yönlü olduğu karmaşık, gerçek dünya sorunlarının üstesinden gelebilen daha sağlam ve çok yönlü YZ sistemleri oluşturma yeteneğinden kaynaklanmaktadır. Günümüzde büyük Temel Modeller de dahil olmak üzere birçok gelişmiş YZ modeli, çok modlu yeteneklerden yararlanmaktadır.

İşte Çok Modlu Öğrenmenin nasıl uygulandığına dair birkaç somut örnek:

Diğer önemli uygulamalar arasında Waymo gibi şirketler tarafından kamera, LiDAR ve radar verilerinin birleştirildiği otonomsürüş (sürücüsüz araçlarda YZ), görüntüleme verilerini hasta kayıtlarıyla birleştiren Tıbbi Görüntü Analizi ve robotların çevreleriyle etkileşim kurmak için görsel, işitsel ve dokunsal bilgileri entegre ettiği robotikteki YZ uygulamaları yer almaktadır( Robotik).

Temel Farklılıklar

Çok Modlu Öğrenmeyi ilgili terimlerden ayırmak faydalı olacaktır:

  • Çok Modlu Modeller: Çok Modlu Öğrenme, birden fazla veri türü kullanarak yapay zekayı eğitmekle ilgili bir süreç veya çalışma alanıdır. Çok Modlu Modeller, bu teknikler kullanılarak tasarlanan ve eğitilen yapay zeka sistemleri veya mimarileridir.
  • Bilgisayarla Görme (CV): CV yalnızca görsel verilerin (görüntüler, videolar) işlenmesi ve anlaşılmasına odaklanır. Multi-Modal Öğrenme, görsel verileri metin veya ses gibi diğer modalitelerle entegre ederek CV'nin ötesine geçer.
  • Doğal Dil İşleme (NLP): NLP insan dilini (metin, konuşma) anlama ve üretme ile ilgilenir. Çok Modlu Öğrenme, dil verilerini görüntüler veya sensör okumaları gibi diğer modalitelerle bütünleştirir.
  • Temel Modeller: Bunlar, büyük miktarda veri üzerinde önceden eğitilmiş, genellikle çeşitli alt görevlere uyarlanabilecek şekilde tasarlanmış büyük ölçekli modellerdir. GPT-4 gibi birçok modern temel model, çok modlu yetenekler içerir, ancak kavramlar farklıdır; Çok Modlu Öğrenme, bu güçlü modellerin oluşturulmasında sıklıkla kullanılan bir metodolojidir.

Zorluklar ve Gelecek Yönelimleri

Çok Modlu Öğrenme, farklı kaynaklardan gelen verilerin etkili bir şekilde hizalanması, optimum birleştirme stratejilerinin geliştirilmesi ve bir veya daha fazla modalitede eksik veya gürültülü verilerin ele alınması gibi benzersiz zorluklar sunar. Çok modlu öğrenmede bu zorlukların ele alınması aktif bir araştırma alanı olmaya devam etmektedir.

Bu alan hızla gelişmekte, dünyayı insanlar gibi algılayan ve muhakeme eden yapay zeka sistemlerine doğru sınırları zorlamakta ve potansiyel olarak Yapay Genel Zeka'nın (AGI) gelişimine katkıda bulunmaktadır. Ultralytics HUB gibi platformlar şu anda aşağıdaki gibi modeller kullanarak öncelikle bilgisayarla görme görevlerine odaklanan iş akışlarını kolaylaştırırken Ultralytics YOLO (örn, Ultralytics YOLOv8) Nesne Algılama için, daha geniş yapay zeka ortamı, çok modlu yeteneklerin artan entegrasyonuna işaret ediyor. Yeni model yetenekleri ve uygulamalarıyla ilgili güncellemeler için Ultralytics Blog 'a göz atın. Alana daha geniş bir genel bakış için, Çok Modlu Öğrenme hakkındaki Wikipedia sayfası daha fazla okuma sunar.

Tümünü okuyun