YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Doğrulama Verisi

Aşırı öğrenmeyi önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için doğrulama verileriyle makine öğrenimi modellerini optimize edin.

Doğrulama verileri, bir modelin hiperparametrelerini ayarlarken, modelin uygunluğunun tarafsız bir değerlendirmesini sağlamak için eğitim sürecinden ayrı tutulan bir veri örneğidir. Doğrulama kümesinin temel rolü, performansının sık ve bağımsız bir değerlendirmesini sunarak bir makine öğrenimi (ML) modelinin geliştirilmesine rehberlik etmektir. Bu geri bildirim döngüsü, yalnızca gördükleri veriler üzerinde iyi performans göstermekle kalmayıp, aynı zamanda yeni, görülmemiş verilere de etkili bir şekilde genellenebilen modeller oluşturmak için gereklidir ve bu da sağlam Yapay Zeka (AI) sistemleri oluşturmanın merkezinde yer alan bir kavramdır.

Doğrulama Verilerinin Rolü

Doğrulama verilerinin temel amacı aşırı öğrenmeyi önlemektir. Aşırı öğrenme, bir modelin eğitim verilerini çok iyi öğrenmesi, yeni verilere uygulanmayan gürültüyü ve ayrıntıları yakalaması ve böylece performansını düşürmesi durumunda meydana gelir. Geliştiriciler, modeli düzenli aralıklarla (örneğin, her epoktan sonra) doğrulama kümesine karşı test ederek genelleme hatasını izleyebilirler. Eğitim verilerindeki performans iyileşmeye devam ederken doğrulama verilerindeki performans durursa veya kötüleşirse, bu aşırı öğrenmenin açık bir işaretidir.

Bu değerlendirme süreci, hiperparametre ayarlaması için çok önemlidir. Hiperparametreler, modelden bağımsız yapılandırma ayarlardır; örneğin, verilerden öğrenilmeyen öğrenme oranı veya batch boyutu. Doğrulama kümesi, en iyi performansı sağlayan kümeyi bulmak için farklı hiperparametre kombinasyonlarını denemeye olanak tanır. Bu yinelemeli süreç, model seçimi ve optimizasyonunun temel bir parçasıdır.

Doğrulama Verisi - Eğitim ve Test Verisi Karşılaştırması

Tipik bir ML projesinde, veri kümesi üç alt kümeye ayrılır ve bunların farklı rollerini anlamak temeldir. Veri bölme için yaygın bir yaklaşım, %70'ini eğitime, %15'ini doğrulamaya ve %15'ini test etmeye ayırmaktır.

  • Eğitim Verisi: Bu, modeli eğitmek için kullanılan verilerin en büyük bölümüdür. Model, iç model ağırlıklarını ayarlayarak bu veri kümesinden yinelemeli olarak kalıpları, özellikleri ve ilişkileri öğrenir.
  • Doğrulama Verileri: Bu ayrı alt küme, eğitim sürecinde tarafsız bir değerlendirme sağlamak için kullanılır. Hiperparametreleri ayarlamaya ve erken durdurmayı uygulayarak aşırı öğrenmeyi önlemek gibi önemli kararlar almaya yardımcı olur. Ultralytics ekosisteminde, bu değerlendirme doğrulama modunda ele alınır.
  • Test Verisi: Bu veri kümesi, model tamamen eğitilip ayarlanana kadar saklanır. Modelin performansının nihai, tarafsız bir değerlendirmesini sağlamak için yalnızca bir kez kullanılır. Test kümesinin performansı, modelin gerçek dünya dağıtım senaryosunda nasıl performans göstermesinin beklendiğini gösterir.

Özellikle doğrulama ve test kümeleri arasında katı bir ayrım yapmak, bir modelin yeteneklerini doğru bir şekilde değerlendirmek ve yanlılık-varyans dengesizliğinden kaçınmak için kritik öneme sahiptir.

Gerçek Dünya Örnekleri

  1. Bilgisayarla Görü (Computer Vision) Nesne Tespiti: Görüntülerdeki nesneleri tespit etmek için bir Ultralytics YOLO modeli eğitilirken (örneğin, VisDrone veri kümesini (VisDrone dataset) kullanarak), etiketlenmiş görüntülerin bir kısmı doğrulama verisi olarak ayrılır. Eğitim sırasında, modelin mAP'si (ortalama Ortalama Kesinlik - mean Average Precision), her epoktan sonra bu doğrulama kümesinde hesaplanır. Bu doğrulama mAP'si, test kümesinde nihai bir performans kontrolünden önce, eğitime ne zaman son verileceğine veya hangi veri artırma (data augmentation) tekniklerinin en iyi sonucu verdiğine karar vermeye yardımcı olur. Etkili model değerlendirme stratejileri (model evaluation strategies) büyük ölçüde bu bölüme dayanır.
  2. Doğal Dil İşleme Metin Sınıflandırması: Müşteri yorumlarını olumlu veya olumsuz olarak sınıflandırmak için bir model geliştirirken (duygu analizi), doğrulama kümesi optimal mimariyi (örneğin, LSTM - Transformer) seçmek veya dropout oranları gibi hiperparametreleri ayarlamak için kullanılır. Doğrulama kümesinde en yüksek F1-skoruna veya doğruluğa ulaşan model, son test için seçilecektir. Hugging Face Veri Kümeleri gibi kaynaklar genellikle bu amaç için önceden bölünmüş veri kümeleri sağlar.

Çapraz Doğrulama

Mevcut veri miktarı sınırlı olduğunda, genellikle Çapraz Doğrulama (özellikle K-Katlı Çapraz Doğrulama) adı verilen bir teknik kullanılır. Burada, eğitim verileri 'K' alt kümesine (katman) bölünür. Model K kez eğitilir, her seferinde eğitim için K-1 katmanı ve kalan katman doğrulama kümesi olarak kullanılır. Performans daha sonra tüm K çalıştırması boyunca ortalaması alınır. Bu, model performansının daha sağlam bir tahminini sağlar ve scikit-learn belgeleri ve Ultralytics K-Katlı Çapraz Doğrulama kılavuzu gibi kaynaklarda açıklandığı gibi sınırlı verileri daha iyi kullanır.

Özetle, doğrulama verileri, PyTorch ve TensorFlow gibi çerçevelerle güvenilir ve yüksek performanslı yapay zeka modelleri oluşturmanın temel taşıdır. Etkili hiperparametre ayarlaması, model seçimi ve aşırı uyumu önleme olanağı sağlayarak, modellerin eğitildikleri verilerin ötesinde iyi genelleşmesini sağlar. Ultralytics HUB gibi platformlar, bu veri kümelerini etkili bir şekilde yönetmek için entegre araçlar sunar.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı