Sözlük

Çok Modlu Model

Çok Modlu Yapay Zeka Modellerinin metin, görüntü ve daha fazlasını entegre ederek gerçek dünya uygulamaları için nasıl sağlam ve çok yönlü sistemler oluşturduğunu keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Çok Modlu Modeller, modalite olarak bilinen birden fazla veri kaynağından gelen bilgileri işleyerek ve entegre ederek yapay zekada (AI) önemli bir ilerlemeyi temsil eder. Yalnızca görüntülere veya metinlere odaklanabilen geleneksel modellerin aksine, çok modlu sistemler karmaşık senaryoların daha bütünsel ve insan benzeri bir şekilde anlaşılmasını sağlamak için metin, görüntü, ses, video ve sensör verileri gibi girdileri birleştirir. Bu entegrasyon, tek modlu modellerin gözden kaçırabileceği karmaşık ilişkileri ve bağlamı yakalamalarına olanak tanıyarak Ultralytics Blog gibi kaynaklarda daha ayrıntılı olarak incelenen daha sağlam ve çok yönlü yapay zeka uygulamalarına yol açar.

Tanım

Çok Modlu Model, iki veya daha fazla farklı veri modalitesinden gelen bilgileri aynı anda işlemek, anlamak ve ilişkilendirmek için tasarlanmış ve eğitilmiş bir yapay zeka sistemidir. Yaygın modaliteler arasında görsel (görüntüler, video), işitsel (konuşma, sesler), metinsel(doğal dil işleme - NLP) ve diğer sensör verileri (LiDAR veya sıcaklık okumaları gibi) bulunur. Temel fikir bilgi füzyonudur - daha derin bir anlayış elde etmek için farklı veri türlerinin güçlü yönlerini birleştirmek. Örneğin, bir videonun tam olarak anlaşılması görsel karelerin, konuşulan diyaloğun (ses) ve potansiyel olarak metin başlıklarının veya altyazıların işlenmesini içerir. Bu modeller, makine öğrenimi (ML) eğitim süreci sırasında, genellikle derin öğrenme (DL) teknikleri kullanarak, bu modaliteler arasındaki korelasyonları ve bağımlılıkları öğrenerek, her bir modaliteyi tek başına analiz ederek mümkün olandan daha zengin, daha incelikli bir anlayış geliştirir.

Uygunluk ve Uygulamalar

Çok Modlu Modellerin önemi hızla artmaktadır çünkü gerçek dünya bilgisi doğası gereği çok yönlüdür. İnsanlar doğal olarak dünyayı birden fazla duyu kullanarak algılar; yapay zekaya benzer yetenekler kazandırmak daha sofistike ve bağlama duyarlı uygulamalara olanak tanır. Bu modeller, anlamanın çeşitli veri akışlarını entegre etmeye bağlı olduğu durumlarda çok önemlidir ve karmaşık görevlerde gelişmiş doğruluk sağlar.

İşte bunların uygulanmasına ilişkin bazı somut örnekler:

Temel Kavramlar ve Ayrımlar

Çok Modlu Modelleri anlamak, ilgili kavramlara aşina olmayı gerektirir:

  • Çok Modlu Öğrenme: Bu, Çok Modlu Modelleri eğitmek için kullanılan algoritmaları ve teknikleri geliştirmeye odaklanan makine öğreniminin alt alanıdır. Genellikle akademik makalelerde tartışılan veri hizalama ve füzyon stratejileri gibi zorlukları ele alır.
  • Temel Modelleri: GPT-4 gibi birçok modern temel model, doğası gereği çok modludur ve hem metin hem de görüntüleri işleyebilmektedir. Bu büyük modeller, belirli görevler için ince ayar yapılabilen bir temel görevi görür.
  • Büyük Dil Modelleri (LLM'ler): Birbiriyle ilişkili olsa da, LLM'ler geleneksel olarak metin işlemeye odaklanır. Çok modlu modeller daha geniştir ve sadece dilin ötesinde farklı veri türlerinden gelen bilgileri işlemek ve entegre etmek için açıkça tasarlanmıştır. Bununla birlikte, bazı gelişmiş LLM'ler çok modlu yetenekler geliştirmiştir.
  • Uzmanlaşmış Görme Modelleri: Çok modlu modeller, aşağıdaki gibi özel bilgisayarla görme (CV) modellerinden farklıdır Ultralytics YOLO. GPT-4 gibi çok modlu bir model bir görüntüyü tanımlayabilirken ("Paspasın üzerinde oturan bir kedi var"), bir YOLO modeli nesne algılama veya örnek segmentasyonunda, kediyi bir sınırlayıcı kutu veya piksel maskesi ile tam olarak konumlandırmada başarılıdır. Bu modeller tamamlayıcı olabilir; YOLO nesnelerin nerede olduğunu belirlerken, çok modlu bir model sahneyi yorumlayabilir veya sahneyle ilgili soruları yanıtlayabilir. Farklı YOLO modelleri arasındaki karşılaştırmalara göz atın.
  • Transformatör Mimarisi: "Attention Is All You Need" kitabında tanıtılan dönüştürücü mimarisi, dikkat mekanizmaları aracılığıyla farklı veri dizilerinin etkili bir şekilde işlenmesini ve bütünleştirilmesini sağlayan birçok başarılı çok modlu modelin temelini oluşturmaktadır.

Bu modellerin geliştirilmesi ve dağıtılması genellikle aşağıdaki gibi çerçeveleri içerir PyTorch ve TensorFlowUltralytics H UB gibi platformlar veri kümelerinin ve model eğitim iş akışlarının yönetilmesine yardımcı olabilir, ancak HUB şu anda daha çok görmeye özgü görevlere odaklanmaktadır. Farklı veri türleri arasında köprü kurma yeteneği, çok modlu modelleri daha kapsamlı yapay zekaya doğru bir adım haline getirmekte ve potansiyel olarak gelecekteki Yapay Genel Zekaya (AGI) katkıda bulunmaktadır.

Tümünü okuyun