Prompt Tuning ile büyük dil modellerini verimli bir şekilde optimize edin; maliyetleri düşürün, kaynaklardan tasarruf edin ve göreve özel uyarlanabilirliği zahmetsizce elde edin.
Hızlı ayarlama, önceden eğitilmiş Belirli aşağı akış görevlerine yönelik temel modeller tüm ağı yeniden eğitmenin hesaplama masrafı olmadan. Bir çeşit Parametre Verimli İnce Ayar (PEFT), bu teknik orijinal modelin büyük parametrelerini dondurur ve yalnızca öğrenilebilir küçük bir kümeyi optimize eder "soft prompts" olarak bilinen vektörler. 'de kullanılan insan tarafından okunabilir metnin aksine istem mühendisliği, yumuşak istemler sayısaldır giriş verilerine eklenen katıştırmalar. Bunlar Öğrenilen vektörler, dondurulmuş modele istenen çıktıyı üretmesi için rehberlik ederek depolama ve belleği önemli ölçüde azaltır Tam model eğitimine kıyasla gereksinimler. Bu yaklaşım tek, paylaşılan bir çekirdek modeli kullanarak birçok farklı özel göreve hizmet etmeyi mümkün kılar.
Hızlı ayarlamanın arkasındaki mekanizma, model mimarisinden ziyade girdinin değiştirilmesi kavramına dayanır. İçinde tipik bir makine öğrenimi (ML) iş akışı Büyük Dil Modelleri (LLM'ler) veya Görme Dili Modelleri, giriş metni veya görüntüsü bir dizi sayısal vektöre dönüştürülür. Hızlı ayarlamada, ek eğitilebilir vektörleri (yumuşak komut istemi) bu dizinin başına eklenir.
Eğitimin geriye yayılma aşaması sırasında gradyan iniş algoritması yalnızca bu yeni vektörleri, milyarlarca model ağırlığını backbone dokunulmadan. Bu yöntem şu araştırmada vurgulanmıştır Google Yapay Zeka, gösteri Modeller büyüdükçe, hızlı ayarlamanın tam ince ayarın performansıyla eşleşebileceği.
Hızlı ayarlama, gelişmiş ayarlar yaparak endüstrileri dönüştürüyor Yapay Zeka (AI) daha fazla erişilebilir ve ölçeklenebilir.
Hızlı ayarlamayı benzer adaptasyon tekniklerinden ayırt etmek çok önemlidir:
Hızlı ayarlama en çok şu alanlarda ünlüdür Doğal Dil İşleme (NLP), Altta yatan mekanik konsept - büyük bir backbone dondurmak ve küçük bir tensoroptimize etmek - Derin Öğrenme (DL). Aşağıdakiler PyTorch snippet'inin temel mantığını göstermektedir Model parametrelerinin dondurulması ve öğrenilebilir bir istem parametresi oluşturulması.
import torch
import torch.nn as nn
# Initialize a hypothetical pre-trained layer (the frozen backbone)
backbone = nn.Linear(768, 10)
# Freeze the backbone parameters so they don't update during training
for param in backbone.parameters():
param.requires_grad = False
# Create a 'soft prompt' embedding that IS trainable
# This represents the learnable vectors prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 768), requires_grad=True)
# Setup an optimizer that only targets the soft prompt
optimizer = torch.optim.Adam([soft_prompt], lr=0.001)
Bu kod, geliştiricilerin bir sistemin hangi bölümlerinin öğreneceğini nasıl kontrol edebileceklerini göstermektedir. sinir ağları. Standart bilgisayarla görme için görevler, verimli modeller gibi Ultralytics YOLO11 vardır genellikle özel veri kümeleri üzerinde standart ince ayar kullanılarak eğitilir, ancak verimlilik ilkeleri, aşağıdaki gibi gelecekteki mimarilerin gelişimini yönlendirir YOLO26.
Hızlı ayarlama şu alanlarda giderek daha önemli hale gelmektedir Bilgisayarlı Görme (CV) teknolojisinin yükselişiyle gibi çok modlu modeller KLİP. Araştırmacılar uyum sağlamak için giriş görüntülerine öğrenilebilir piksel yamalarının veya belirteçlerin eklendiği "Görsel İpucu Ayarlama "yı keşfetmek yeni nesne algılama görevleri için görüntü dönüştürücüler ağır özellik çıkarıcıları yeniden eğitmeden. Bu, dil modellerinde görülen verimlilik kazanımlarını yansıtır ve sektörün eğilimi ile Yeşil YZ tarafından Eğitim sırasında enerji tüketimini en aza indirmek.
