Test Verisi
Yapay zekada test verilerinin önemini, model performansını değerlendirmedeki, aşırı öğrenmeyi tespit etmedeki ve gerçek dünya güvenilirliğini sağlamadaki rolünü keşfedin.
Makine öğreniminde Test Verisi, nihai değerlendirme için kullanılan bir veri kümesinin ayrı ve bağımsız bir bölümüdür.
Bir modelin tamamen eğitildikten ve ayarlandıktan sonra değerlendirilmesi. Bu veri kümesi model için bir "final sınavı" görevi görür.
Modelin yeni, görülmemiş veriler üzerindeki performansının tarafsız bir şekilde değerlendirilmesini sağlar. Temel prensip, modelin
geliştirilmesi sırasında asla test verilerinden öğrenmemeli veya bunlardan etkilenmemelidir. Bu katı ayrım aşağıdakileri sağlar
test seti üzerinde hesaplanan performans ölçümleri, örneğin
doğruluk veya
ortalama Ortalama Hassasiyet (mAP), gerçek bir
modelin aşağıdakileri yapabilme yeteneğinin yansıması
gerçek dünya senaryolarına genelleme. Titiz
önce model testi kritik bir adımdır.
model dağıtımı.
ML Yaşam Döngüsünde Test Verilerinin Rolü
Tipik bir Makine Öğrenimi (ML) projesinde,
veriler farklı amaçlara hizmet etmek üzere dikkatlice bölümlere ayrılmıştır. Bu bölümler arasındaki ayrımı anlamak
güvenilir modeller oluşturmak için temeldir.
-
Eğitim Verileri: Bu en büyük
Modeli öğretmek için kullanılan veri alt kümesi. Model, kalıpları, özellikleri ve ilişkileri aşağıdaki yöntemlerle yinelemeli olarak öğrenir
iç model ağırlıklarını aşağıdakilere göre ayarlar
eğitim setindeki örnekler. Etkili model oluşturma, yüksek kaliteli eğitim verilerine ve en iyi
bunun gibi uygulamalar
model eğitim ipuçları kılavuzu.
-
Doğrulama Verileri: Bu bir
Eğitim sürecinde kullanılan ayrı bir veri kümesi . Amacı, modelin performansı hakkında geri bildirim sağlamaktır.
görünmeyen veriler üzerinde performans, bu da
hiperparametre ayarı (örn.
öğrenme oranı) ve önlenmesi
Aşırı uyum. Bu bir alıştırma testi gibi
öğrenme stratejisine rehberlik eder. Değerlendirme genellikle özel bir araç kullanılarak gerçekleştirilir
doğrulama modu.
-
Test Verileri: Bu veri seti, tüm eğitim ve doğrulama bitene kadar tamamen izole tutulur.
Modelin performansı hakkında nihai, tarafsız bir rapor sağlamak için yalnızca bir kez kullanılır. Test verilerini kullanarak herhangi bir
Modelde yapılacak başka ayarlamalar sonuçları geçersiz kılacaktır; bu hata bazen
"veri sızıntısı" ya da
test." Bu nihai değerlendirme, bir modelin, tıpkı bir model gibi, nasıl
Ultralytics YOLO11 modeli, dağıtımdan sonra performans gösterecektir.
Eğitimden sonra, aşağıdakileri kullanabilirsiniz val modunu kullanarak nihai performans ölçümlerini oluşturun.
from ultralytics import YOLO
# Load a trained YOLO11 model
model = YOLO("yolo11n.pt")
# Evaluate the model's performance on the COCO8 test set.
# This command runs a final, unbiased evaluation on the 'test' split.
metrics = model.val(data="coco8.yaml", split="test")
print(metrics.box.map) # Print mAP score
Benchmark Veri Kümesi bir test olarak hizmet verebilirken
setinin birincil rolü, genellikle akademik mücadelelerde kullanılan farklı modelleri karşılaştırmak için genel bir standart olarak hareket etmektir
gibi
ImageNet Büyük Ölçekli Görsel Tanıma Yarışması (ILSVRC). Sen
Bunun örneklerini model karşılaştırma sayfalarında görebilirsiniz.
Gerçek Dünya Uygulamaları
-
Otomotivde Yapay Zeka: Bir geliştirici bir
için nesne algılama modeli
binlerce saat kullanan otonom araç
eğitim ve doğrulama için sürüş görüntüleri. Bu model bir filoya yerleştirilmeden önce, bir
test veri kümesi. Bu test kümesi, gece yoğun trafikte araç kullanmak gibi zorlu ve daha önce görülmemiş senaryoları içerecektir.
yağmurda, kar fırtınasında yön bulma veya diğer nesneler tarafından kısmen gizlenen yayaları tespit etme. Modelin
gibi ölçütlerden elde edilen verileri kullanarak bu test seti üzerinde performans
nuScenes, katı standartları karşılayıp karşılamadığını belirler.
için gerekli güvenlik ve güvenilirlik standartları
Otomotiv uygulamalarında yapay zeka.
-
Tıbbi Görüntü Analizi: A
bilgisayarla görme (CV) modeli aşağıdakiler için eğitilir
Bir hastaneden alınan göğüs röntgeni görüntülerinden pnömoni belirtilerini detect etmek. Klinik olarak kullanışlı olmasını sağlamak için
Model, farklı bir hastane sisteminden alınan görüntülerden oluşan bir veri kümesi üzerinde test edilmelidir. Bu test verileri görüntüleri içerecektir
Farklı ekipmanlarla, farklı hasta popülasyonlarından çekilmiş ve farklı radyologlar tarafından yorumlanmıştır.
Modelin performansının bu harici test seti üzerinde değerlendirilmesi, aşağıdakiler gibi ruhsatlandırma onayı almak için çok önemlidir
bir şey yok.
FDA tarafından onaylanmış ve
Sağlık hizmetlerinde yapay zeka. Bu süreç, aşağıdakilerin sağlanmasına yardımcı olur
model veri seti yanlılığını önler ve aşağıdaki durumlarda güvenilir performans gösterir
yeni klinik ortamlar. Kamuya açık tıbbi görüntüleme veri kümelerini aşağıdaki gibi kaynaklarda bulabilirsiniz
Kanser Görüntüleme Arşivi (TCIA).
Test Verilerini Yönetmek için En İyi Uygulamalar
Değerlendirmenizin bütünlüğünü sağlamak için bu en iyi uygulamaları göz önünde bulundurun:
-
Rastgele Örnekleme: Veri bölmelerinizi oluştururken, test kümesinin temsili bir örneklem olduğundan emin olun
genel problem alanının bir örneği. Gibi araçlar
scikit-learn'in train_test_split'i
bu rastgele bölümlemeyi otomatikleştirmeye yardımcı olabilir.
-
Veri Sızıntısını Önleyin: Eğitim ve test setleri arasında örtüşme olmadığından emin olun. Hafif sızıntılar bile,
Örneğin her iki sette de aynı video klipten karelerin bulunması, performans puanlarını yapay olarak şişirebilir.
-
Temsili Dağıtım: Gibi görevler için
sınıflandırma, sınıf dağılımının
test seti, karşılaşmayı beklediğiniz gerçek dünya dağılımını yansıtır.
-
Değerlendirme Metrikleri: İş hedeflerinizle uyumlu metrikler seçin. Örneğin, bir güvenlik
uygulamasında, yüksek hatırlanabilirlik daha önemli olabilir
hiçbir tehdidin gözden kaçmamasını sağlamak için hassasiyet.
Bu ilkelere sıkı sıkıya bağlı kalarak, test verilerini aşağıdakileri onaylamak için güvenle kullanabilirsiniz
Ultralytics modelleri üretim ortamları için hazırdır.