Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Çok Modlu Öğrenme

Yapay Zekada Çok Modlu Öğrenmenin gücünü keşfedin! Modellerin daha zengin, gerçek dünya problem çözümü için çeşitli veri türlerini nasıl entegre ettiğini inceleyin.

Çok modlu öğrenme, çok modlu öğrenmenin gelişmiş bir alt alanıdır. algoritmaların olduğu makine öğrenimi (ML) modaliteler olarak bilinen birden fazla farklı veri türünden gelen bilgileri işlemek, anlamak ve ilişkilendirmek için eğitilmiştir. Geleneksel yapay zeka sistemleri genellikle tek bir girdi türüne odaklanırken - örneğin dil çevirisi için metin veya görüntü tanıma-çok modluöğrenme taklitleri Görsel veriler, sözlü ses, metinsel açıklamalar ve sensör gibi çeşitli duyusal girdileri entegre ederek insan bilişi okumalar. Bu bütünsel yaklaşım şunları sağlar geliştirmek için yapay zeka (AI) Dünyanın daha derin ve bağlama duyarlı bir şekilde anlaşılması, daha sağlam ve çok yönlü tahmin modellerine yol açar.

Çok Modlu Entegrasyon Mekaniği

Çok modlu öğrenmedeki temel zorluk, farklı veri türlerini ortak bir matematiksel alana çevirmektir. karşılaştırılabilir ve birleştirilebilirler. Bu süreç tipik olarak üç ana aşamadan oluşur: kodlama, hizalama ve birleştirme.

  1. Kodlama: Uzmanlaşmış sinir ağları her bir modaliteyi bağımsız olarak işler. Mesela, konvolüsyonel sinir ağları (CNN'ler) veya Vision Transformers (ViTs) özü görüntülerden özellikler Tekrarlayan Sinir Ağları (RNN'ler) veya Transformatörler işlem metni.
  2. Hizalama: Model, bu farklı özellikleri ortak yüksek boyutlu vektörlerle eşleştirmeyi öğrenir gömme olarak adlandırılır. Bu paylaşılan uzayda, vektör "köpek" kelimesinin vektörü ile bir köpek resminin vektörü birbirine yaklaştırılır. Gibi teknikler makaleler tarafından popüler hale getirilen kontrastlı öğrenme OpenAI'nin CLIP'i gibi, burada çok önemlidir.
  3. Füzyon: Son olarak, bir görevi yerine getirmek için bilgiler birleştirilir. Füzyon erken gerçekleşebilir (hammaddelerin birleştirilmesi verileri), geç (nihai tahminlerin birleştirilmesi) veya ara hibrit yöntemler aracılığıyla önemini tartmak için dikkat mekanizması her bir modalitenin dinamik olarak.

Gerçek Dünya Uygulamaları

Çok modlu öğrenme, günümüzün en etkileyici yapay zeka atılımlarının çoğunun arkasındaki motordur. farklı veri siloları.

  • Görsel Soru Yanıtlama (VQA): İçinde Görsel Soru Yanıtlama (VQA), bir Sistem bir görüntüyü analiz etmeli ve bu görüntü hakkında doğal dilde sorulan bir soruyu yanıtlamalıdır, örneğin trafik ışığı?". Bu, modelin metnin semantiğini anlamasını ve trafik ışıklarını mekansal olarak konumlandırmasını gerektirir. ilgili görsel unsurlar.
  • Otonom Navigasyon: Sürücüsüz araçlar büyük ölçüde LiDAR nokta bulutlarından gelen verileri birleştiren sensör füzyonu, güvenli bir şekilde seyretmek için kamera video beslemeleri ve radar. Bu çok modlu girdi, bir sensörün arızalanması durumunda (örn. güneş parlaması nedeniyle kör olan kamera), diğerleri güvenliği sağlayabilir.
  • Sağlık Hizmetlerinde Teşhis: Sağlık hizmetlerinde yapay zeka çok modlu öğrenmeyi kullanıyor yapılandırılmamış metinsel hasta geçmişi ve genetik verilerle birlikte tıbbi görüntüleri (MRI veya X-ışınları gibi) analiz ederek. Bu kapsamlı görünüm, doktorların daha doğru teşhisler koymasına yardımcı oluyor. Nature Digital Medicine dergileri.

Ultralytics ile Çok Modlu Nesne Algılama

Standart nesne dedektörleri önceden tanımlanmış sınıflara dayanırken, çok modlu yaklaşımlar YOLO, kullanıcıların nesneleri açık kelime dağarcığı metin istemleri. Bu, metinsel kavramları görsel özelliklerle ilişkilendirmenin gücünü göstermektedir.

from ultralytics import YOLOWorld

# Load a pretrained YOLO-World model (Multi-Modal: Text + Vision)
model = YOLOWorld("yolov8s-world.pt")

# Define custom text prompts (modalities) for the model to identify
model.set_classes(["person", "bus", "traffic light"])

# Run inference: The model aligns the text prompts with visual features
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

Anahtar Terimlerin Farklılaştırılması

Modern YZ'nin manzarasında gezinmek için, 'Çok Modlu Öğrenme'yi ilgili kavramlardan ayırmak yararlı olacaktır:

  • Çok Modlu Modeller: "Çok Modlu Öğrenme" metodolojiyi ve çalışma alanını ifade eder. Bir "Çok Modlu Model" ( GPT-4 veya Gemini gibi) belirli bir Bu eğitim süreci sonucunda ortaya çıkan eser veya yazılım ürünü.
  • Bilgisayarla Görme (CV): Özgeçmiş genellikle tek modludur ve yalnızca görsel verilere odaklanır. gibi bir model olsa da Ultralytics YOLO11 son teknoloji ürünü bir CV aracıdır, bu çıktıları ses veya metin verileriyle birleştirildiğinde çok modlu bir boru hattının parçası haline gelir.
  • Büyük Dil Modelleri (LLM'ler): Geleneksel LLM'ler tek modludur ve yalnızca metin üzerinde eğitilir. Bununla birlikte, sektör "Büyük Çok Modlu Taşımacılığa" doğru kaymaktadır. Modeller" (LMM'ler) gibi çerçeveler tarafından desteklenen bir eğilim olan görüntüleri ve metinleri yerel olarak işleyebilen PyTorch ve TensorFlow.

Geleceğe Bakış

Çok modlu öğrenmenin gidişatı, aşağıdaki özelliklere sahip sistemlere işaret etmektedir Yapay Genel Zeka (AGI) özellikleri. Bu modeller, dili görsel ve fiziksel gerçeklikle başarılı bir şekilde temellendirerek gerçek muhakemeye doğru istatistiksel korelasyon. Gibi kurumların araştırmaları MIT CSAIL ve Stanford Vakıf Modelleri Araştırma Merkezi, Türkiye'deki vakıf modellerini geliştirmeye devam ediyor. Makinelerin karmaşık, çok duyulu ortamları nasıl algıladığı ve bunlarla nasıl etkileşime girdiğinin sınırları.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın