Meta'nın Llama 3'ünü yakından tanımak
Meta'nın Llama 3'ü yakın zamanda piyasaya sürüldü ve yapay zeka topluluğundan büyük bir heyecanla karşılandı. Meta yapay zeka gelişmelerindeki en son yenilik olan Llama 3 hakkında daha fazla bilgi edinelim.

2024 yılının ilk çeyreğindeki (yapay zeka) (YZ) inovasyonlarını özetlediğimizde, LLM'lerin yani büyük dil modellerinin farklı kuruluşlar tarafından peşi sıra yayınlandığını gördük. Bu trendi sürdüren Meta, 18 Nisan 2024 tarihinde yeni nesil, son teknoloji ürünü ve açık kaynaklı bir LLM olan Llama 3'ü yayınladı.
Şöyle düşünüyor olabilirsin: Sadece bir başka LLM. Yapay zeka topluluğu neden bu kadar heyecanlı?
GPT-3 veya Gemini gibi modelleri kişiselleştirilmiş yanıtlar için ince ayarlardan (fine-tuning) geçirebilsen de, bu modeller eğitim verileri, model parametreleri veya algoritmalar gibi iç işleyişleri hakkında tam şeffaflık sunmazlar. Buna karşılık Meta'nın Llama 3 modeli, mimarisi ve ağırlıkları indirilebilir olduğu için daha şeffaftır. Yapay zeka topluluğu için bu, deney yapma konusunda daha fazla özgürlük anlamına geliyor.
Bu makalede Llama 3'ün neler yapabildiğini, nasıl ortaya çıktığını ve yapay zeka alanındaki etkisini öğreneceğiz. Hemen başlayalım!
Link to this sectionMeta'nın Llama modellerinin evrimi#
Llama 3'ün derinliklerine dalmadan önce, önceki sürümlerine bir göz atalım.
Meta, Şubat 2023'te 7 milyardan 65 milyara kadar değişen parametrelere sahip dört farklı varyantla Llama 1'i piyasaya sürdü. Makine öğreniminde "parametreler", eğitim verilerinden öğrenilen model öğelerini ifade eder. Daha az sayıda parametreye sahip olması nedeniyle Llama 1, bazen incelikli anlamaları kavramakta zorlanıyor ve tutarsız yanıtlar verebiliyordu.
Llama 1'den kısa bir süre sonra Meta, Temmuz 2023'te Llama 2'yi yayınladı. 2 trilyon token üzerinde eğitilmişti. Token, modelin işlemesi için veri birimi olarak kullanılan bir kelime veya bir kelimenin parçası gibi bir metin parçasını temsil eder. Model ayrıca, daha uzun pasajları anlamak için iki katına çıkarılmış 4096 token'lık bağlam penceresi ve hataları azaltmak için 1 milyondan fazla insan notasyonu gibi iyileştirmeler içeriyordu. Bu iyileştirmelere rağmen Llama 2 hala çok fazla bilgi işlem gücüne ihtiyaç duyuyordu; Meta'nın Llama 3 ile düzeltmeyi hedeflediği nokta buydu.
Link to this sectionMeta'nın Llama 3 modeliyle tanışın#
Llama 3, 15 trilyon token gibi dudak uçuklatan bir veri kümesi üzerinde eğitilen dört varyantla geliyor. Bu eğitim verilerinin %5'inden fazlası (yaklaşık 800 milyon token), 30 farklı dildeki verileri temsil ediyordu. Tüm Llama 3 varyantları çeşitli tüketici donanımlarında çalıştırılabiliyor ve 8k token'lık bağlam uzunluğuna sahip.

Şekil 1. Llama 3 ve Llama 2 karşılaştırması.
Model varyantları iki boyutta geliyor: sırasıyla 8 milyar ve 70 milyar parametreyi ifade eden 8B ve 70B. Ayrıca "base" (temel) ve "instruct" (talimat) olmak üzere iki sürüm bulunuyor. "Base", standart önceden eğitilmiş sürümü ifade eder. "Instruct" ise ilgili veriler üzerinde ek eğitim yoluyla belirli uygulamalar veya alanlar için optimize edilmiş, ince ayar yapılmış bir sürümdür.
Llama 3 model varyantları şunlardır:
- Meta-Llama-3-8b: 8B temel model, temel yapay zeka yetenekleri sağlar ve müşteri hizmetleri sohbet botları geliştirmek gibi genel görevler için idealdir.
- Meta-Llama-3-8b-instruct: 8B modelinin belirli görevler için optimize edilmiş, talimatla ince ayar yapılmış bir sürümüdür. Örneğin, karmaşık konuları açıklayan eğitim araçları oluşturmak için kullanılabilir.
- Meta-Llama-3-70b: 70B temel model, yüksek performanslı yapay zeka uygulamaları için tasarlanmıştır. Bu model, ilaç keşfi için kapsamlı biyomedikal literatürü işlemek gibi uygulamalar için oldukça verimlidir.
- Meta-Llama-3-70b-instruct: Bu sürüm, doğruluk payının kritik olduğu yasal veya tıbbi belgelerin analizi gibi son derece hassas uygulamalar için 70B modelinden ince ayar yapılarak geliştirilmiştir.
Link to this sectionMeta'nın Llama 3 model mimarisi#
Diğer tüm Meta AI geliştirmelerinde olduğu gibi, Llama 3 geliştirilirken veri bütünlüğünü korumak ve önyargıları en aza indirmek için sıkı kalite kontrol önlemleri alındı. Yani nihai ürün, sorumlu bir şekilde oluşturulmuş güçlü bir modeldir.
Llama 3 model mimarisi, doğal dil işleme görevlerinde verimlilik ve performansa odaklanmasıyla öne çıkıyor. Transformer tabanlı bir çerçeve üzerine inşa edilen model, yalnızca kod çözücü (decoder-only) mimarisi kullanarak, özellikle metin oluşturma sırasında hesaplama verimliliğine vurgu yapar.
Model, girdileri kodlamak için bir kodlayıcıya (encoder) ihtiyaç duymadan, yalnızca önceki bağlama dayalı çıktılar üretir ve bu da onu çok daha hızlı hale getirir.

Şekil 2. Llama 3 Sorumlu Model Mimarisi.
Llama 3 modelleri, 128K token'lık bir sözlüğe sahip bir belirteçleştirici (tokenizer) içerir. Daha geniş bir sözlük, modellerin metni daha iyi anlayabileceği ve işleyebileceği anlamına gelir. Ayrıca modeller, çıkarım verimliliğini artırmak için artık gruplandırılmış sorgu dikkatini (GQA) kullanıyor. GQA'yı, modellerin daha hızlı ve daha doğru yanıtlar üretmek için girdi verilerinin ilgili kısımlarına odaklanmasına yardımcı olan bir spot ışığı olarak düşünebilirsin.
Llama 3'ün model mimarisi hakkında birkaç ilginç detay daha:
- Sınır Farkındalıklı Belge İşleme: Llama 3, özetleme gibi görevler için anahtar öneme sahip olan belge sınırları boyunca netliği korur.
- Daha İyi Kod Anlama: Llama 3'ün eğitim verileri, kodlama yeteneklerini artıran dört kat daha fazla kod örneği içerir.
- Güçlü Kalite Kontrolü: Sezgisel filtreler ve NSFW kaldırma dahil olmak üzere sıkı önlemler, veri bütünlüğünü sağlar ve önyargıları en aza indirir.
Link to this sectionLlama 3, model eğitimine yaklaşımımızı dönüştürüyor#
En büyük Llama 3 modellerini eğitmek için üç tür paralelleştirme birleştirildi: veri paralelleştirme, model paralelleştirme ve boru hattı paralelleştirme.
Veri paralelleştirme, eğitim verilerini birden fazla GPU'ya bölerken, model paralelleştirme her GPU'nun hesaplama gücünü kullanmak için model mimarisini bölümlere ayırır. Boru hattı paralelleştirme ise eğitim sürecini sıralı aşamalara bölerek hesaplama ve iletişimi optimize eder.
En verimli uygulama, 16.000 GPU üzerinde eşzamanlı olarak eğitildiğinde GPU başına 400 TFLOPS'u aşan olağanüstü bir hesaplama kullanımı sağladı. Bu eğitim süreçleri, her biri 24.000 GPU'dan oluşan iki adet özel üretim GPU kümesi üzerinde yürütüldü. Bu büyük hesaplama altyapısı, büyük ölçekli Llama 3 modellerini verimli bir şekilde eğitmek için gerekli gücü sağladı.
GPU çalışma süresini en üst düzeye çıkarmak için hata tespiti, işleme ve bakımı otomatikleştiren gelişmiş bir yeni eğitim yığını geliştirildi. Sessiz veri bozulması risklerini azaltmak için donanım güvenilirliği ve algılama mekanizmaları büyük ölçüde iyileştirildi. Ayrıca, kontrol noktası oluşturma (checkpointing) ve geri alma (rollback) yüklerini azaltmak için yeni ölçeklenebilir depolama sistemleri geliştirildi.
Bu iyileştirmeler, %95'in üzerinde etkinlik ile genel bir eğitim süresi sağladı. Hepsi bir araya geldiğinde, Llama 3 eğitiminin verimliliğini Llama 2'ye kıyasla yaklaşık üç kat artırdılar. Bu verimlilik sadece etkileyici olmakla kalmıyor, aynı zamanda yapay zeka eğitim yöntemleri için yeni olanaklar da yaratıyor.
Link to this sectionLlama 3 ile kapılar açılıyor#
Llama 3 açık kaynaklı olduğu için araştırmacılar ve öğrenciler kodunu inceleyebilir, deneyler yapabilir ve etik kaygılar ile önyargılar hakkında tartışmalara katılabilirler. Ancak Llama 3 sadece akademik kitle için değil. Pratik uygulamalarda da büyük ses getiriyor. Facebook, Instagram, WhatsApp ve Messenger gibi platformlara sorunsuz bir şekilde entegre edilerek Meta AI Sohbet Arayüzü'nün omurgası haline geliyor. Meta AI ile kullanıcılar doğal dilde sohbet edebilir, kişiselleştirilmiş önerilere erişebilir, görevleri yerine getirebilir ve başkalarıyla kolayca bağlantı kurabilirler.

Şekil 3. Meta AI: Llama 3 ile güçlendirilmiştir.
Link to this sectionLlama 3'ü diğer LLM'lerle karşılaştırmak#
Llama 3, karmaşık dil anlama ve akıl yürütme yeteneklerini değerlendiren birkaç önemli kıyaslamada (benchmark) olağanüstü performans gösteriyor. İşte Llama 3'ün yeteneklerinin çeşitli yönlerini test eden bazı kıyaslamalar:
- Massive Multitask Language Understanding (MMLU) - Çeşitli alanlardaki bilgisini ölçer.
- General Purpose Question Answering (GPQA) - Modelin çok çeşitli genel kültür sorularına tutarlı ve doğru yanıtlar üretme yeteneğini değerlendirir.
- HumanEval - İşlevsel programlama kodu üretme ve algoritmik zorlukları çözme yeteneğini test ederek kodlama ve problem çözme görevlerine odaklanır.
Llama 3'ün bu testlerdeki üstün sonuçları, onu Google’ın Gemma 7B, Mistral’ın Mistral 7B ve Anthropic’in Claude 3 Sonnet gibi rakiplerinden açıkça ayırıyor. Yayınlanan istatistiklere göre, özellikle 70B modeli, yukarıdaki tüm kıyaslamalarda bu modellerden daha iyi performans gösteriyor.

Şekil 4. Llama 3'ün diğer LLM'lerle karşılaştırılması.
Link to this sectionMeta Llama 3 geniş çapta erişilebilir hale getiriliyor#
Meta, Llama 3'ü hem genel kullanıcılar hem de geliştiriciler için çeşitli platformlarda kullanılabilir hale getirerek erişimini genişletiyor. Günlük kullanıcılar için Llama 3, WhatsApp, Instagram, Facebook ve Messenger gibi Meta'nın popüler platformlarına entegre edilmiştir. Kullanıcılar, gerçek zamanlı arama ve doğrudan bu uygulamalar içinde yaratıcı içerik oluşturma gibi gelişmiş özelliklere erişebilirler.
Llama 3 ayrıca etkileşimli deneyimler için Ray-Ban Meta akıllı gözlükler ve Meta Quest VR başlığı gibi giyilebilir teknolojilere dahil ediliyor.
Llama 3; AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, NVIDIA NIM ve Snowflake dahil olmak üzere geliştiriciler için çeşitli platformlarda mevcuttur. Bu modellere doğrudan Meta üzerinden de erişebilirsin. Sunulan geniş seçenek yelpazesi, geliştiricilerin ister doğrudan Meta ile ister diğer popüler platformlar aracılığıyla çalışmayı tercih etsinler, bu gelişmiş yapay zeka modeli yeteneklerini projelerine entegre etmelerini kolaylaştırıyor.
Link to this sectionÖnemli çıkarım#
Makine öğrenimi alanındaki ilerlemeler, teknolojiyle her gün etkileşim kurma biçimimizi dönüştürmeye devam ediyor. Meta'nın Llama 3'ü, LLM'lerin artık sadece metin üretmekten ibaret olmadığını gösteriyor. LLM'ler karmaşık sorunları çözüyor ve birden fazla dilde işlem yapabiliyor. Genel olarak Llama 3, yapay zekayı her zamankinden daha uyarlanabilir ve erişilebilir hale getiriyor. Geleceğe bakıldığında, Llama 3 için planlanan yükseltmeler, birden fazla modeli işleme ve daha geniş bağlamları anlama gibi daha fazla yetenek vaat ediyor.
Yapay zeka hakkında daha fazla bilgi edinmek için GitHub depomuza göz at ve topluluğumuza katıl. Yapay zekanın üretim ve tarım gibi alanlarda nasıl uygulandığını görmek için çözüm sayfalarımızı ziyaret et.






