Sözlük

Temel Modeli

Temel modellerin ölçeklenebilir mimariler, geniş ön eğitim ve farklı uygulamalar için uyarlanabilirlik ile yapay zekada nasıl devrim yarattığını keşfedin.

YOLO modellerini Ultralytics HUB ile basitçe
eğitin

Daha fazla bilgi edinin

Temel Model, çok çeşitli alt görevler için uyarlanmak veya ince ayar yapılmak üzere tasarlanmış, büyük miktarlarda geniş, etiketsiz veriler üzerinde önceden eğitilmiş büyük ölçekli bir Yapay Zeka (AI) modelidir. Genellikle Transformer gibi mimarilere dayanan bu modeller, verilerden genel kalıpları, yapıları ve temsilleri öğrenerek, sıfırdan göreve özgü eğitime ihtiyaç duymadan çeşitli özel uygulamalar için çok yönlü bir temel oluşturur. Temel modellerin geliştirilmesi, Makine Öğreniminde (ML) önemli bir paradigma değişimini temsil eder ve verimli bir şekilde özelleştirilebilen genel amaçlı modeller oluşturmaya doğru ilerler.

Temel Özellikler

Temel modeller birkaç temel özellik ile tanımlanır:

  • Ölçek: Tipik olarak çok büyüktürler, milyarlarca hatta trilyonlarca parametre içerirler ve genellikle internetten veya diğer kapsamlı kaynaklardan(Büyük Veri) toplanan devasa veri kümeleri üzerinde eğitilirler.
  • Ön eğitim: Modelin açık etiketler olmadan verinin kendi yapısından öğrendiği, genellikle öz denetimli öğrenme veya denetimsiz yöntemler kullanılarak yoğun bir ön eğitim aşamasından geçerler.
  • Uyarlanabilirlik: En önemli avantajlarından biri uyarlanabilir olmalarıdır. Önceden eğitildikten sonra, ön eğitim sırasında kazanılan genel bilgiden yararlanarak duygu analizi, görüntü tanıma veya nesne algılama gibi belirli görevler için nispeten az miktarda etiketli veri ile ince ayar yapılabilir. Bu süreç bir tür transfer öğrenmesidir.
  • Homojenleştirme: Daha önce birden fazla özel model gerektiren yetenekleri tek, uyarlanabilir bir çerçevede birleştirme eğilimindedirler ve MLOps'u potansiyel olarak basitleştirirler.

Temel Modelleri Nasıl Çalışır?

Temel modellerin oluşturulması ve kullanılması tipik olarak iki aşamadan oluşur:

  1. Ön eğitim: Model büyük ve çeşitli bir veri kümesi üzerinde eğitilir. GPT-3 gibi dil modelleri için bu, cümledeki bir sonraki kelimenin tahmin edilmesini içerir. Görme modelleri için, maskelenmiş görüntü yamalarını yeniden yapılandırmayı veya görüntüler ve metin(CLIP) arasındaki ilişkileri öğrenmeyi içerebilir. Bu aşama önemli hesaplama kaynakları gerektirir (GPU, TPU).
  2. İnce Ayar/Adaptasyon: Önceden eğitilmiş model daha sonra daha küçük, göreve özgü etiketli bir veri kümesi kullanılarak belirli bir alt görev için uyarlanır. İnce ayar gibi teknikler model ağırlıklarını ayarlarken, hızlı mühendislik gibi yöntemler, özellikle Büyük Dil Modelleri (LLM'ler) için geçerli olmak üzere, ağırlıklarını değiştirmeden modelin çıktısını yönlendirir.

Örnekler ve Uygulamalar

Temel modelleri çeşitli alanları kapsar:

Temel Modelleri ve Diğer Modeller

  • Göreve Özel Modeller: Temel modellerin aksine, geleneksel makine öğrenimi genellikle modellerin tek bir görev için belirli veri kümeleri üzerinde sıfırdan eğitilmesini içerir (ör. Ultralytics YOLO yalnızca hava görüntülerindeki nesneleri tespit etmek için model). Etkili olsa da bu, her yeni görev için önemli miktarda etiketli veri ve çaba gerektirir. Temel modeller, transfer öğrenme yoluyla bunu azaltmayı amaçlamaktadır.
  • Büyük Dil Modelleri (LLM'ler): LLM'ler, dil görevleri için özel olarak tasarlanmış önemli bir temel model türüdür. "Temel model" terimi daha geniştir ve görme, ses ve diğer modaliteler için modelleri içerir.
  • CV Modelleri: ViT veya SAM gibi bazı büyük vizyon modelleri temel modeller olarak kabul edilirken, belirli versiyonları da dahil olmak üzere birçok CV modeli YOLOv8 veya YOLO11 Belirli uygulamalar(tarımda yapayzeka, otomotivde yapay zeka) için eğitilen bu modeller, genel amaçlı temel modeller olmaktan ziyade, genellikle bu görüş görevleri için özel olarak ince ayarlanmış veya eğitilmiştir. Bununla birlikte, önceden eğitilmiş omurgaların kullanılmasına yönelik eğilim, genel özelliklerden yararlanma temel fikrini paylaşmaktadır.

Eğitim ve Kaynaklar

Temel modellerin ön eğitimi hesaplama açısından pahalıdır, genellikle büyük GPU veya TPU kümeleri ve önemli mühendislik çabası gerektirir, genellikle büyük araştırma laboratuvarları veya aşağıdaki gibi şirketler tarafından üstlenilir Google, Meta AI ve OpenAI. Bununla birlikte, önceden eğitildikten sonra, bu modeller daha verimli bir şekilde uyarlanabilir. Ultralytics HUB gibi platformlar, genellikle temel bilgileri içeren önceden eğitilmiş ağırlıklardan yararlanarak özel modelleri eğitmek, veri kümelerini yönetmek (Ultralytics Veri Kümeleri) ve çözümleri dağıtmak(Model Dağıtım Seçenekleri) için araçlar sağlar. Etkili adaptasyon yine de dikkatli hiperparametre ayarlaması ve potansiyel olarak veri artırımı gerektirir.

Önemi ve Geleceği

Temel modeller YZ ortamını değiştiriyorRoboflow on Foundation Models). Gelişimi hızlandırıyor, yeni uygulamaları mümkün kılıyor ve YZ etiği, önyargı ve hesaplama erişimi konularında önemli hususları gündeme getiriyorlar. Stanford'un Temel Modeller Araştırma Merkezi (CRFM) gibi araştırma kurumları, kendilerini bu modellerin yeteneklerini ve toplumsal etkilerini incelemeye adamıştır. Gelecekte bilim, endüstri ve günlük yaşamda inovasyonu teşvik eden daha güçlü, verimli ve potansiyel olarak çok modlu temel modelleri içermesi muhtemeldir(YZ Kullanım Örnekleri).

Tümünü okuyun