Aşırı öğrenmeyi önlemek, hiperparametreleri ayarlamak ve sağlam, gerçek dünya performansı sağlamak için doğrulama verileriyle makine öğrenimi modellerini optimize edin.
Doğrulama verileri, makine öğrenimi geliştirme yaşam döngüsünde kritik bir ara adım görevi görerek Model eğitimi sürecinde görünmeyen veriler için vekil. Bir model oluşturmak için kullanılan veri kümesinin farklı bir alt kümesidir. Yapılandırmasını ayarlarken bir modelin uyumunun tarafsız bir şekilde değerlendirilmesi. Modeli periyodik olarak aşağıdakilere karşı test ederek doğrulama verileri sayesinde geliştiriciler, sistemin aşağıdakileri ne kadar iyi öğrendiğini değerlendirebilir yeni bilgilere genelleme yapmak yerine eğitim örneklerinin ezberlenmesi. Bu geri bildirim döngüsü, sorunların erken tespit edilmesi ve eğitimin optimize edilmesi için gereklidir. sağlam, gerçek dünya performansı için model.
Doğrulama verilerinin birincil işlevi aşağıdakileri kolaylaştırmaktır hiperparametre ayarı. İç mekanların aksine öğrenilen model ağırlıkları gibi parametreler doğrudan eğitim sürecinden, hiperparametreler gibi öğrenme oranı veya parti boyutu -manuel olarak ayarlanmalıveya deneyler. Doğrulama seti, mühendislerin farklı model mimarilerini ve konfigürasyonlarını aşağıdakilerle karşılaştırmasına olanak tanır Nihai test setine dokunmadan en iyi performansı göstereni seçin.
Ayrıca, doğrulama verileri üzerindeki performansın izlenmesi, aşağıdakilerin önlenmesine yardımcı olur Aşırı uyum. Aşırı uyum, bir model aşağıdaki özellikleri öğrendiğinde ortaya çıkar yeni veriler üzerindeki performansına zarar verecek şekilde eğitim verilerinin gürültüsü ve belirli ayrıntıları. Eğer eğitim hatası azalır ancak doğrulama hatası artarsa, bu durum modelin genelleme yeteneğini kaybettiğini gösterir ve erken durdurma gibi müdahale tekniklerine duyulan ihtiyaç.
Güvenilir bir değerlendirme sağlamak için, eksiksiz bir veri seti tipik olarak üç ayrı bölüme ayrılır. Anlamak Her bölünmenin özel amacı etkili bir bölünme için hayati önem taşır. veri yönetimi.
Ultralytics ekosisteminde, doğrulama iş akışına sorunsuz bir şekilde entegre edilmiştir. Bir veri kümesi tanımlarken YAML yapılandırmasında, kullanıcılar eğitim ve doğrulama görüntüleri için yollar belirler. Bu Ultralytics doğrulama modu daha sonra aşağıdakileri hesaplamak için çağrılabilir gibi metrikler Ortalama Ortalama Hassasiyet (mAP) doğrulama seti.
Önceden eğitilmiş bir YOLO11 modelini şu şekilde doğrulayabilirsiniz Python:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Validate the model on the 'coco8.yaml' dataset
# The 'data' argument specifies the dataset configuration containing the validation split
metrics = model.val(data="coco8.yaml")
# Display the Mean Average Precision (mAP) at IoU 50-95
print(f"Validation mAP50-95: {metrics.box.map}")
Doğrulama verileri, geliştiricilerin hassasiyetin çok önemli olduğu belirli sektörler için modellere ince ayar yapmalarını sağlar.
Verilerin az olduğu senaryolarda, statik bir doğrulama ayrımı çok fazla değerli eğitim verisini ortadan kaldırabilir. Bunların içinde durumlarda, uygulayıcılar genellikle Çapraz Doğrulama, özellikle K-Fold Çapraz Doğrulama. Bu teknik, verilerin 'K' alt kümelerine bölünmesini ve hangi alt kümenin doğrulama verileri. Bu, her veri noktasının hem eğitim hem de doğrulama için kullanılmasını sağlayarak bir 'de ayrıntılı olarak açıklandığı üzere, model performansının istatistiksel olarak daha sağlam tahmini scikit-learn çapraz doğrulama belgeleri.
Doğrulama verilerinin doğru kullanımı, aşağıdakilerin temel taşıdır makine öğrenimi işlemleri (MLOps). Geliştiriciler, doğrulama örneklerini eğitim sürecinden kesin bir şekilde ayırarak modellerinin sadece Gerçekleri ezberlemek değil, görsel dünyayı yorumlamayı gerçekten öğrenmek.
