Sözlük

Uzmanlar Karması (MoE)

NLP, görme, robotik ve daha fazlası için ölçeklenebilir, verimli modeller sağlayan çığır açan bir yapay zeka mimarisi olan Uzmanların Karışımını (MoE) keşfedin.

Uzmanlar Karışımı (MoE), bir problemi "uzmanlar" olarak bilinen uzmanlaşmış alt modeller arasında bölerek modellerin daha verimli öğrenmesini sağlayan bir sinir ağı (NN ) mimarisidir. Her girdiyi işleyen tek bir monolitik model yerine, MoE mimarisi her girdiyi dinamik olarak en ilgili uzman(lar)a yönlendirmek için bir "geçit ağı" kullanır. Bu yaklaşım, her biri belirli bir görevde mükemmel olan uzmanlardan oluşan bir ekibin karmaşık sorunları tek bir genel uzmandan daha etkili bir şekilde çözebileceği fikrinden esinlenmiştir. Bu koşullu hesaplama, MoE modellerinin çok sayıda parametreye ölçeklenmesini sağlarken, herhangi bir girdi için modelin yalnızca bir kısmı kullanıldığından, çıkarım için hesaplama maliyetini yönetilebilir tutar.

Uzmanların Karışımı Nasıl Çalışır?

MoE mimarisi iki ana bileşenden oluşmaktadır:

  1. Uzman Ağlar: Bunlar, genellikle aynı mimariye sahip olan ve verilerin farklı bölümlerinde uzmanlaşmak üzere eğitilen çok sayıda küçük sinir ağıdır. Örneğin, doğal dil işleme (NLP) için bir modelde, bir uzman İngilizceyi Fransızcaya çevirme konusunda uzmanlaşırken, bir diğeri Python kodu oluşturma konusunda uzmanlaşabilir. Her uzman daha büyük bir derin öğrenme sisteminin bir bileşenidir.

  2. Geçit Ağı: Bu, bir trafik kontrolörü veya yönlendirici görevi gören küçük bir sinir ağıdır. Girdiyi alır ve hangi uzmanın veya uzman kombinasyonunun bunu işlemek için en uygun olduğunu belirler. Geçitleme ağı her uzman için olasılıklar üretir ve bunlara dayanarak girdiyi işlemek için bir veya birkaç uzmanı seçici olarak etkinleştirir. Ağın yalnızca bir alt kümesini etkinleştiren bu teknik genellikle seyrek aktivasyon olarak adlandırılır ve Google'ın"Outrageously Large Neural Networks" gibi etkili makalelerinde ayrıntılı olarak açıklanan temel bir kavramdır.

Eğitim sürecinde, hem uzman ağlar hem de yolluk ağı geri yayılım kullanılarak eş zamanlı olarak eğitilir. Sistem sadece uzmanlar dahilinde görevi nasıl çözeceğini değil, aynı zamanda geçitleme ağı aracılığıyla girdileri nasıl etkili bir şekilde yönlendireceğini de öğrenir.

MoE vs Model Ensemble

Uzmanların Karışımı genellikle model birleştirme ile karşılaştırılır, ancak temelde farklı ilkelere göre çalışırlar.

  • Topluluk Yöntemleri: Standart bir toplulukta, birden fazla farklı model bağımsız olarak (veya farklı veri alt kümeleri üzerinde) eğitilir. Çıkarım için, tüm modeller girdiyi işler ve çıktıları nihai bir sonuç üretmek için birleştirilir (örneğin, oylama veya ortalama alma yoluyla). Bu, sağlamlığı ve doğruluğu artırır ancak topluluktaki her modelin çalıştırılması gerektiğinden hesaplama maliyetini önemli ölçüde artırır.
  • Uzmanların Karışımı: Bir MoE'de tüm uzmanlar tek ve daha büyük bir modelin parçasıdır ve birlikte eğitilirler. Herhangi bir girdi için, geçitleme ağı çalıştırmak üzere yalnızca birkaç uzman seçer. Bu, modelin parametrelerinin çoğu her bir özel görev için kullanılmadan kaldığından, çıkarımı eşdeğer boyuttaki yoğun bir modelden veya bir topluluktan çok daha hızlı ve hesaplama açısından daha verimli hale getirir.

Gerçek Dünya Uygulamaları

MoE mimarileri, özellikle NLP'de son teknoloji modellerin ölçeklendirilmesinde öne çıkmıştır.

  1. Büyük Dil Modelleri (LLM'ler): MoE, en güçlü LLM'lerden bazılarının arkasındaki temel teknolojidir. Örneğin, Mistral AI'nın Mixtral 8x7B 'si ve Google'ın Switch Transformers'ı yüz milyarlarca hatta trilyonlarca parametreye sahip modeller oluşturmak için MoE kullanır. Bu devasa ölçek, çıkarımı aşırı derecede pahalı hale getirmeden bilgi ve muhakeme yeteneklerini geliştiriyor.
  2. Bilgisayarla Görme: Transformatör tabanlı LLM'lerde daha yaygın olmakla birlikte, MoE kavramı bilgisayarla görme (CV) için de geçerlidir. Çok çeşitli kategorilere sahip karmaşık bir görüntü sınıflandırma görevi için, bir MoE modeli hayvanları, araçları ve binaları tanımlama konusunda uzmanlaşmış uzmanlara sahip olabilir. Geçit ağı önce görüntüyü analiz eder ve uygun uzmanı etkinleştirerek daha verimli işlemeye yol açar. Bu yaklaşım Ultralytics YOLO11 gibi gelişmiş modellerde keşfedilebilir.

Zorluklar ve Dikkat Edilmesi Gerekenler

MoE modellerini etkili bir şekilde uygulamak, uzmanlar arasında dengeli yük sağlamak (bazı uzmanların aşırı veya az kullanılmasını önlemek), dağıtılmış eğitim ortamlarında iletişim ek yükünü yönetmek ( PyTorch ve TensorFlow gibi çerçevelerde görüldüğü gibi) ve eğitim sürecindeki artan karmaşıklık gibi zorlukları içerir. Ultralytics HUB gibi platformları kullanarak model dağıtım seçeneklerinin ve yönetiminin dikkatlice değerlendirilmesi de gereklidir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı