YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024

Meta'nın Llama 3'ünü tanımak

Abirami Vina

7 dakikalık okuma

10 Mayıs 2024

Meta'nın Llama 3'ü yakın zamanda piyasaya sürüldü ve yapay zeka topluluğundan büyük heyecanla karşılandı. Meta AI'daki en son gelişmelerden biri olan Llama 3 hakkında daha fazla bilgi edinelim.

2024'ün ilk çeyreğindeki yapay zeka (AI) yeniliklerini topladığımızda, LLM'lerin veya büyük dil modellerinin farklı kuruluşlar tarafından sağdan sola piyasaya sürüldüğünü gördük. Bu eğilimi sürdüren Meta, 18 Nisan 2024'te yeni nesil, son teknoloji ürünü, açık kaynaklı bir LLM olan Llama 3'ü piyasaya sürdü. 

Şöyle düşünüyor olabilirsiniz: Bu sadece başka bir LLM. Yapay zeka topluluğu neden bu kadar heyecanlı? 

GPT-3 veya Gemini gibi modelleri özelleştirilmiş yanıtlar için ince ayar yapabilseniz de, eğitim verileri, model parametreleri veya algoritmaları gibi iç işleyişleri hakkında tam şeffaflık sunmazlar. Buna karşılık, Meta'nın Llama 3'ü daha şeffaftır ve mimarisi ve ağırlıkları indirilmeye hazırdır. Yapay zeka topluluğu için bu, deney yapmak için daha fazla özgürlük anlamına gelir.

Bu makalede, Llama 3'ün neler yapabileceğini, nasıl ortaya çıktığını ve yapay zeka alanı üzerindeki etkisini öğreneceğiz. Hemen başlayalım!

Meta'nın Llama modellerinin evrimi

Llama 3'e dalmadan önce, önceki sürümlerine bir göz atalım.

Meta, Şubat 2023'te 7 milyardan 64 milyara kadar değişen parametrelere sahip dört farklı varyantta gelen Llama 1'i piyasaya sürdü. Makine öğreniminde "parametreler", modelin eğitim verilerinden öğrenilen unsurlarını ifade eder. Daha az sayıda parametresi nedeniyle Llama 1, nüanslı anlayışta bazen zorlandı ve tutarsız yanıtlar verdi.

Llama 1'den kısa bir süre sonra Meta, Temmuz 2023'te Llama 2'yi piyasaya sürdü. 2 trilyon token üzerinde eğitildi. Bir token, modelde işleme için temel veri birimi olarak kullanılan bir kelime veya kelime parçası gibi bir metin parçasını temsil eder. Model ayrıca, daha uzun pasajları anlamak için 4096 token'lık iki katına çıkarılmış bir bağlam penceresi ve hataları azaltmak için 1 milyondan fazla insan açıklaması gibi geliştirmeler içeriyordu. Bu iyileştirmelere rağmen, Llama 2 hala çok fazla işlem gücüne ihtiyaç duyuyordu ve Meta, Llama 3 ile bunu düzeltmeyi amaçladı.

Meta'nın Llama 3'ü Tanıtımı

Llama 3, şaşırtıcı bir şekilde 15 trilyon token'a karşı eğitilmiş dört varyantla birlikte gelir. Bu eğitim verilerinin %5'inden fazlası (yaklaşık 800 milyon token), 30 farklı dildeki verileri temsil ediyordu. Tüm Llama 3 varyantları, çeşitli tüketici donanım türlerinde çalıştırılabilir ve 8k token'lık bir bağlam uzunluğuna sahiptir. 

__wf_reserved_inherit
Şekil 1. Llama 3 - Llama 2 Karşılaştırması.

Model varyantları, sırasıyla 8 milyar ve 70 milyar parametreyi ifade eden iki boyutta gelir: 8B ve 70B. Ayrıca, base (temel) ve instruct (talimat) olmak üzere iki sürümü bulunmaktadır. "Base", standart önceden eğitilmiş sürümü ifade eder. "Instruct" ise ilgili veriler üzerinde ek eğitim yoluyla belirli uygulamalar veya alanlar için optimize edilmiş, ince ayarlı bir sürümdür.

Bunlar Llama 3 model varyantlarıdır:

  • Meta-Llama-3-8b: Temel 8B modeli, temel yapay zeka yetenekleri sağlar ve müşteri hizmetleri chatbot'ları geliştirmek gibi genel görevler için idealdir.
  • Meta-Llama-3-8b-instruct: Belirli görevler için optimize edilmiş, 8B modelinin talimatlarla ince ayarlanmış bir versiyonudur. Örneğin, karmaşık konuları açıklayan eğitim araçları oluşturmak için kullanılabilir.
  • Meta-Llama-3-70b: Temel 70B modeli, yüksek performanslı yapay zeka uygulamaları için tasarlanmıştır. Bu model, ilaç keşfi için kapsamlı biyomedikal literatürünü işlemek gibi uygulamalar için iyi çalışacaktır.
  • Meta-Llama-3-70b-instruct: Bu sürüm, doğruluk kritik öneme sahip olan yasal veya tıbbi belgeleri analiz etmek gibi yüksek hassasiyetli uygulamalar için 70B modelinden ince ayarlanmıştır.

Meta'nın Llama 3 model mimarisi

Diğer Meta yapay zeka gelişmelerinde olduğu gibi, Llama 3'ü geliştirirken veri bütünlüğünü korumak ve önyargıları en aza indirmek için titiz kalite kontrol önlemleri alınmıştır. Bu nedenle, nihai ürün sorumlu bir şekilde oluşturulmuş güçlü bir modeldir. 

Llama 3 model mimarisi, doğal dil işleme görevlerinde verimlilik ve performansa odaklanmasıyla öne çıkmaktadır. Transformer tabanlı bir çerçeve üzerine inşa edilen bu mimari, özellikle metin oluşturma sırasında, yalnızca kod çözücü (decoder-only) mimarisi kullanarak hesaplama verimliliğini vurgular. 

Model, girdileri kodlamak için bir kodlayıcı (encoder) olmadan, yalnızca önceki bağlama dayalı olarak çıktılar oluşturarak çok daha hızlı hale gelir.

__wf_reserved_inherit
Şekil 2. Llama 3 Sorumlu Model Mimarisi.

Llama 3 modelleri, 128 bin token'lık bir kelime dağarcığına sahip bir belirteçlendirici (tokenizer) içerir. Daha geniş bir kelime dağarcığı, modellerin metni daha iyi anlaması ve işlemesi anlamına gelir. Ayrıca, modeller artık çıkarım verimliliğini artırmak için gruplandırılmış sorgu dikkatini (GQA) kullanıyor. GQA, modellerin daha hızlı ve daha doğru yanıtlar oluşturmak için girdi verilerinin ilgili bölümlerine odaklanmasına yardımcı olan bir spot ışığı olarak düşünülebilir.

İşte Llama 3'ün model mimarisi hakkında birkaç ilginç detay daha:

  • Sınır Farkındalıklı Belge İşleme: Llama 3, özetleme gibi görevler için önemli olan belge sınırları boyunca netliği korur.
  • Daha İyi Kod Anlama: Llama 3'ün eğitim verileri, kodlama yeteneklerini artırarak dört kat daha fazla kod örneği içerir.
  • Sağlam Kalite Kontrolü: Sezgisel filtreler ve NSFW (iş yerinde sakıncalı) içeriğin kaldırılması dahil olmak üzere titiz önlemler, veri bütünlüğünü sağlar ve önyargıları en aza indirir.

Llama 3, model eğitimine yaklaşımımızı dönüştürüyor

En büyük Llama 3 modellerini eğitmek için üç tür paralelleştirme birleştirildi: veri paralelleştirmesi, model paralelleştirmesi ve ardışık düzen (pipeline) paralelleştirmesi. 

Veri paralelleştirmesi eğitim verilerini birden çok GPU arasında bölerken, model paralelleştirmesi her bir GPU'nun işlem gücünü kullanmak için model mimarisini bölümlere ayırır. Ardışık düzen paralelleştirmesi, eğitim sürecini sıralı aşamalara bölerek hesaplamayı ve iletişimi optimize eder.

En verimli uygulama, eş zamanlı olarak 16.000 GPU üzerinde eğitildiğinde GPU başına 400 TFLOPS'yi aşan dikkate değer bir işlem kullanımı elde etti. Bu eğitim çalıştırmaları, her biri 24.000 GPU'dan oluşan özel olarak oluşturulmuş iki GPU kümesinde gerçekleştirildi. Bu önemli işlem altyapısı, büyük ölçekli Llama 3 modellerini verimli bir şekilde eğitmek için gerekli gücü sağladı.

GPU çalışma süresini en üst düzeye çıkarmak için, hata algılamayı, işlemeyi ve bakımı otomatik hale getiren gelişmiş yeni bir eğitim yığını geliştirildi. Sessiz veri bozulması risklerini azaltmak için donanım güvenilirliği ve algılama mekanizmaları büyük ölçüde iyileştirildi. Ayrıca, kontrol noktası oluşturma (checkpointing) ve geri alma (rollback) yükünü azaltmak için yeni ölçeklenebilir depolama sistemleri geliştirildi. 

Bu iyileştirmeler, genel eğitim süresinin %95'in üzerinde bir etkinliğe ulaşmasını sağladı. Birlikte, Llama 3 eğitiminin verimliliğini Llama 2'ye kıyasla yaklaşık üç kat artırdılar. Bu verimlilik sadece etkileyici değil; aynı zamanda yapay zeka eğitim yöntemleri için yeni olasılıklar yaratıyor. 

Llama 3 ile kapılar açılıyor

Llama 3 açık kaynaklı olduğundan, araştırmacılar ve öğrenciler kodunu inceleyebilir, deneyler yapabilir ve etik kaygılar ve önyargılar hakkında tartışmalara katılabilir. Ancak Llama 3 sadece akademik çevre için değil. Pratik uygulamalarda da ses getiriyor. Facebook, Instagram, WhatsApp ve Messenger gibi platformlara sorunsuz bir şekilde entegre olarak Meta AI Sohbet Arayüzü'nün omurgası haline geliyor. Meta AI ile kullanıcılar doğal dil konuşmalarına katılabilir, kişiselleştirilmiş önerilere erişebilir, görevleri gerçekleştirebilir ve başkalarıyla kolayca bağlantı kurabilir.

__wf_reserved_inherit
Şekil 3. Meta AI: Llama 3 tarafından desteklenmektedir.

Llama 3'ün diğer LLM'lerle karşılaştırılması

Llama 3, karmaşık dil anlama ve akıl yürütme yeteneklerini değerlendiren çeşitli temel kıstaslarda olağanüstü bir performans sergilemektedir. İşte Llama 3'ün yeteneklerinin çeşitli yönlerini test eden bazı kıstaslar:

  • Büyük Ölçekli Çoklu Görev Dil Anlama (MMLU) - Çeşitli alanlardaki bilgisini ölçer. 
  • Genel Amaçlı Soru Cevaplama (GPQA) - Modelin çok çeşitli genel bilgi sorularına tutarlı ve doğru yanıtlar üretme yeteneğini değerlendirir.
  • HumanEval - Kodlama ve problem çözme görevlerine odaklanır, modelin işlevsel programlama kodu üretme ve algoritmik zorlukları çözme yeteneğini test eder.

Llama 3'ün bu testlerdeki olağanüstü sonuçları, onu Google'ın Gemma 7B, Mistral'ın Mistral 7B ve Anthropic'in Claude 3 Sonnet gibi rakiplerinden açıkça ayırmaktadır. Yayınlanan istatistiklere göre, özellikle 70B modeli, Llama 3'ün yukarıdaki tüm kıstaslarda bu modellerden daha iyi performans gösterdiği görülmektedir.

__wf_reserved_inherit
Şekil 4. Llama 3'ün Diğer LLM'lerle Karşılaştırılması.

Meta Llama 3, geniş çapta erişilebilir hale getiriliyor

Meta, hem genel kullanıcılar hem de geliştiriciler için Llama 3'ü çeşitli platformlarda kullanılabilir kılarak erişim alanını genişletiyor. Günlük kullanıcılar için Llama 3, WhatsApp, Instagram, Facebook ve Messenger gibi Meta'nın popüler platformlarına entegre edilmiştir. Kullanıcılar, bu uygulamalar içinde gerçek zamanlı arama ve yaratıcı içerik oluşturma gibi gelişmiş özelliklere doğrudan erişebilirler. 

Llama 3 ayrıca, etkileşimli deneyimler için Ray-Ban Meta akıllı gözlükleri ve Meta Quest VR başlığı gibi giyilebilir teknolojilere de dahil ediliyor.

Llama 3, AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM ve Snowflake dahil olmak üzere geliştiriciler için çeşitli platformlarda mevcuttur. Bu modellere doğrudan Meta'dan da erişebilirsiniz. Geniş seçenek yelpazesi, geliştiricilerin bu gelişmiş AI model yeteneklerini projelerine entegre etmelerini kolaylaştırır; ister doğrudan Meta ile ister diğer popüler platformlar aracılığıyla çalışmayı tercih etsinler.

Özet

Makine öğrenimi alanındaki gelişmeler, teknolojiyle her gün etkileşim kurma biçimimizi dönüştürmeye devam ediyor. Meta'nın Llama 3'ü, LLM'lerin artık sadece metin üretmekle ilgili olmadığını gösteriyor. LLM'ler karmaşık sorunların üstesinden geliyor ve birden çok dili işliyor. Genel olarak, Llama 3, yapay zekayı her zamankinden daha uyarlanabilir ve erişilebilir hale getiriyor. İleriye dönük olarak, Llama 3 için planlanan yükseltmeler, birden çok modeli işleme ve daha büyük bağlamları anlama gibi daha da fazla yetenek vaat ediyor. 

Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuza göz atın ve topluluğumuza katılın. Yapay zekanın üretim ve tarım gibi alanlarda nasıl uygulandığını görmek için çözümler sayfalarımızı ziyaret edin.

Gelin, yapay zekanın geleceğini
birlikte inşa edelim!

Makine öğreniminin geleceği ile yolculuğunuza başlayın

Ücretsiz başlayın
Bağlantı panoya kopyalandı