Aşırı öğrenmeyi önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için doğrulama verileriyle makine öğrenimi modellerini optimize edin.
Doğrulama verileri, bir modelin hiperparametrelerini ayarlarken, modelin uygunluğunun tarafsız bir değerlendirmesini sağlamak için eğitim sürecinden ayrı tutulan bir veri örneğidir. Doğrulama kümesinin temel rolü, performansının sık ve bağımsız bir değerlendirmesini sunarak bir makine öğrenimi (ML) modelinin geliştirilmesine rehberlik etmektir. Bu geri bildirim döngüsü, yalnızca gördükleri veriler üzerinde iyi performans göstermekle kalmayıp, aynı zamanda yeni, görülmemiş verilere de etkili bir şekilde genellenebilen modeller oluşturmak için gereklidir ve bu da sağlam Yapay Zeka (AI) sistemleri oluşturmanın merkezinde yer alan bir kavramdır.
Doğrulama verilerinin temel amacı aşırı öğrenmeyi önlemektir. Aşırı öğrenme, bir modelin eğitim verilerini çok iyi öğrenmesi, yeni verilere uygulanmayan gürültüyü ve ayrıntıları yakalaması ve böylece performansını düşürmesi durumunda meydana gelir. Geliştiriciler, modeli düzenli aralıklarla (örneğin, her epoktan sonra) doğrulama kümesine karşı test ederek genelleme hatasını izleyebilirler. Eğitim verilerindeki performans iyileşmeye devam ederken doğrulama verilerindeki performans durursa veya kötüleşirse, bu aşırı öğrenmenin açık bir işaretidir.
Bu değerlendirme süreci, hiperparametre ayarlaması için çok önemlidir. Hiperparametreler, modelden bağımsız yapılandırma ayarlardır; örneğin, verilerden öğrenilmeyen öğrenme oranı veya batch boyutu. Doğrulama kümesi, en iyi performansı sağlayan kümeyi bulmak için farklı hiperparametre kombinasyonlarını denemeye olanak tanır. Bu yinelemeli süreç, model seçimi ve optimizasyonunun temel bir parçasıdır.
Tipik bir ML projesinde, veri kümesi üç alt kümeye ayrılır ve bunların farklı rollerini anlamak temeldir. Veri bölme için yaygın bir yaklaşım, %70'ini eğitime, %15'ini doğrulamaya ve %15'ini test etmeye ayırmaktır.
Özellikle doğrulama ve test kümeleri arasında katı bir ayrım yapmak, bir modelin yeteneklerini doğru bir şekilde değerlendirmek ve yanlılık-varyans dengesizliğinden kaçınmak için kritik öneme sahiptir.
Mevcut veri miktarı sınırlı olduğunda, genellikle Çapraz Doğrulama (özellikle K-Katlı Çapraz Doğrulama) adı verilen bir teknik kullanılır. Burada, eğitim verileri 'K' alt kümesine (katman) bölünür. Model K kez eğitilir, her seferinde eğitim için K-1 katmanı ve kalan katman doğrulama kümesi olarak kullanılır. Performans daha sonra tüm K çalıştırması boyunca ortalaması alınır. Bu, model performansının daha sağlam bir tahminini sağlar ve scikit-learn belgeleri ve Ultralytics K-Katlı Çapraz Doğrulama kılavuzu gibi kaynaklarda açıklandığı gibi sınırlı verileri daha iyi kullanır.
Özetle, doğrulama verileri, PyTorch ve TensorFlow gibi çerçevelerle güvenilir ve yüksek performanslı yapay zeka modelleri oluşturmanın temel taşıdır. Etkili hiperparametre ayarlaması, model seçimi ve aşırı uyumu önleme olanağı sağlayarak, modellerin eğitildikleri verilerin ötesinde iyi genelleşmesini sağlar. Ultralytics HUB gibi platformlar, bu veri kümelerini etkili bir şekilde yönetmek için entegre araçlar sunar.