Catastrophic Forgetting
Sinir ağlarında felaket niteliğinde unutmayı nasıl önleyeceğini keşfet. Ultralytics YOLO modellerini eğitirken kanıtlanmış azaltma stratejilerini incele.
Sıklıkla yıkıcı etkileşim olarak adlandırılan yıkıcı unutma, bir yapay sinir ağının yeni görevleri öğrenirken daha önce öğrendiği bilgileri aniden kaybetmesi durumunu ifade eden, makine öğrenimi alanında geniş çapta çalışılmış bir fenomendir. Bir model yeni bir veri kümesine uyum sağlamak için sıralı eğitimden geçtiğinde, geriye yayılım kullanan optimizasyon algoritmaları model ağırlıklarını günceller. Bu işlem, önceki görevler için gerekli olan matematiksel temsillerin genellikle farkında olmadan üzerine yazılmasına neden olur. Sonuç olarak, özgün amacı için yüksek düzeyde optimize edilmiş bir yapay zeka sistemi, özel önlemler alınmadan yalnızca yeni verilerle eğitilirse, bu ilk görevlerde ciddi bir performans düşüşü yaşayabilir.
Link to this sectionYıkıcı Unutma Neden Gerçekleşir#
Derin öğrenmede, bir modelin bilgisi birbirine bağlı nöronlardan oluşan dağıtık bir ağda saklanır. İnce ayar sırasında, Stochastic Gradient Descent gibi optimizasyon işlevleri, yeni veriler üzerindeki hatayı en aza indirmek için bu bağlantıları ayarlar. Yeni eğitim veri kümesi orijinal sınıflara ait örnekler içermiyorsa, optimizasyon süreci ağırlıkları yeni veri dağılımına doğru kaydırarak eski dağılımın "hafızasını" etkili bir şekilde siler. Yapısal kayma üzerine güncel çalışmalar, bu içsel çöküşün modern sinir ağlarının insan benzeri, yaşam boyu öğrenmeyi kutudan çıktığı gibi gerçekleştirmesini temelden sınırladığını göstermektedir.
Link to this sectionİlgili Kavramları Ayırt Etme#
Yıkıcı unutmayı diğer yapay zeka kavramlarıyla karşılaştırmak çok önemlidir:
- Yıkıcı Unutma vs. Model Çöküşü: Unutma yeni görevlerin kademeli olarak öğrenilmesi nedeniyle gerçekleşirken, model çöküşü, bir modelin diğer yapay zeka modelleri tarafından oluşturulan sentetik verilerle özyinelemeli olarak eğitildiğinde aynı görev üzerindeki performansının kademeli olarak bozulmasıdır.
- Yıkıcı Unutma vs. Sürekli Öğrenme: Sürekli öğrenme, yıkıcı unutmayı çözmeyi amaçlayan genel bir araştırma metodolojisidir. Sürekli öğrenme algoritmaları, modellerin unutmadan yeni bilgileri sıralı bir şekilde edinmesini sağlamaya çalışır.
Link to this sectionGerçek Dünya Örnekleri#
Yıkıcı unutma, dinamik gerçek dünya ortamlarında faaliyet gösteren çeşitli yapay zeka alanlarında önemli bir zorluk oluşturur:
- Otonom Sistemler: Otonom araçlara yönelik algılama hatlarında, başlangıçta yayaları ve standart trafik işaretlerini tanımak üzere eğitilmiş bir bilgisayarlı görü sistemi, bölgeye özgü yeni inşaat tabelalarını tanımak üzere ince ayardan geçirilebilir. Güvenlik önlemleri alınmadığı takdirde, sistem aniden yayaları güvenilir bir şekilde tespit etmekte zorlanabilir ve bu da ciddi bir güvenlik riski yaratır.
- Dil ve Bilişsel Yapay Zeka: Büyük dil modellerini tıbbi teşhis gibi alana özgü görevler için özelleştirirken, model konuşma uyumunu veya genel akıl yürütme becerilerini unutabilir. LLM'ler üzerine yapılan güncel bir karşılaştırmalı analiz, yüksek oranda uzmanlaşmış metinler üzerinde yapılan standart ince ayarın genellikle önceki güvenlik uyumunu aşındırdığını ve modellerin birincil talimat takip yeteneklerini kaybetmelerine neden olduğunu göstermektedir.
Link to this sectionYıkıcı Unutmanın Üstesinden Gelmek#
Yapay zeka mühendisleri bu sorunu hafifletmek ve optimal bir plastisite-kararlılık ikilemini korumak için çeşitli stratejiler kullanırlar:
- Veri Kümesi Tekrarı ve Birleştirme: En güvenilir yöntem, orijinal eğitim verilerinin bir alt kümesini yeni verilerle karıştırmaktır. Ultralytics Platform gibi araçlar, eğitim sırasında orijinal sınıfların etkili bir şekilde tekrar oynatılmasını sağlamak için birleştirilmiş veri kümelerinin yönetimini ve sürüm kontrolünü basitleştirir.
- Esnek Ağırlık Konsolidasyonu (EWC): Bu düzenlileştirme tekniği, eski görevler için kritik olan parametrelerdeki güncellemeleri sınırlar. Ağ unutmasını aşmaya yönelik güncel deneylerde vurgulandığı üzere, bu anahtar ağırlıkları tanımlayıp koruyarak modeller unutmayı azaltır.
- Parametre Verimli İnce Ayar (PEFT): Düşük Dereceli Uyarlama (LoRA) gibi yöntemler, temel önceden eğitilmiş ağırlıkları dondurur ve ağa küçük, eğitilebilir matrisler enjekte ederek temel bilginin üzerine yazılmasını engeller.
- Katmanları Dondurma: Daha kısa eğitim süreçlerinde, backbone ve boyun katmanlarını dondurmak, temel özellik çıkarıcıların bozulmadan kalmasını sağlar.
- Gradyansız Optimizasyon: Yeni çerçeveler, gradyan güncellemelerinin kısıtlı olduğu ortamlarda ileri geçiş tabanlı yöntemlerin de unutmayı verimli bir şekilde hafifletebildiğini göstermiştir.
Link to this sectionGörüntü İşleme Yapay Zekasında Uygulama Örneği#
Ultralytics YOLO modelini yeni bir nesne algılama görevine uyarlarken, katmanları dondurmak etkili ve erişilebilir bir yaklaşımdır. Aşağıdaki örnek, ilk 10 katmanı dondurarak yıkıcı unutmayı önlerken bir Ultralytics YOLO26 modelini yeni bir veri kümesi üzerinde nasıl eğiteceğini göstermektedir.
from ultralytics import YOLO
# Load a pretrained Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a combined dataset while freezing core backbone layers
# The 'freeze=10' argument prevents catastrophic forgetting of foundational visual features
results = model.train(data="combined_dataset.yaml", epochs=20, freeze=10, lr0=0.001)
# Evaluate the model to ensure it retains performance on old and new tasks
metrics = model.val()





