Eğitim Verileri
Yapay zekada eğitim verilerinin önemini keşfedin. Kaliteli veri kümelerinin gerçek dünya görevleri için doğru, sağlam makine öğrenmesi modellerini nasıl desteklediğini öğrenin.
Eğitim verileri, bir makine öğrenimi (ML) modeline doğru tahminler veya kararlar vermeyi öğretmek için kullanılan temel veri setidir. Denetimli öğrenmede, bu veriler, genellikle etiketler veya açıklamalar olarak adlandırılan, karşılık gelen doğru çıktılarla eşleştirilmiş girdi örneklerinden oluşur. Model, tahminleri ile gerçek etiketler arasındaki farkı en aza indirmek için dahili model ağırlıklarını ayarlayarak bu örneklerden yinelemeli olarak öğrenir. Eğitim verilerinin kalitesi, miktarı ve çeşitliliği, bir modelin performansını ve yeni, görülmemiş verilere genelleme yeteneğini etkileyen en kritik faktörlerdir.
Yüksek Kaliteli Eğitim Verisinin Önemi
"Çöp giren, çöp çıkar" ilkesi, özellikle ML modellerini eğitirken geçerlidir. Yüksek kaliteli veriler, sağlam ve güvenilir sistemler oluşturmak için çok önemlidir. Temel özellikler şunlardır:
- Alaka: Veriler, modelin çözmesi amaçlanan problemi doğru bir şekilde yansıtmalıdır.
- Çeşitlilik: Aşırı uyumu önlemek için modelin gerçek dünyada karşılaşacağı çok çeşitli senaryoları, uç durumları ve varyasyonları kapsamalıdır.
- Doğru Etiketleme: Açıklamalar doğru ve tutarlı olmalıdır. Veri etiketleme süreci genellikle bir bilgisayarlı görü projesinin en çok zaman alan kısmıdır.
- Yeterli Hacim: Modelin anlamlı kalıpları öğrenmesi için genellikle büyük miktarda veriye ihtiyaç vardır. Veri artırma gibi teknikler, veri kümesini yapay olarak genişletmeye yardımcı olabilir.
- Düşük Yanlılık (Low Bias): Veriler, haksız veya yanlış model davranışına yol açabilecek veri kümesi yanlılığını (dataset bias) önlemek için dengeli ve temsil edici olmalıdır. Algoritmik yanlılığı (algorithmic bias) anlamak, sorumlu yapay zeka geliştirmenin önemli bir yönüdür.
Ultralytics HUB gibi platformlar, model geliştirme yaşam döngüsü boyunca veri kümelerini yönetmek için araçlar sağlarken, CVAT gibi açık kaynaklı araçlar etiketleme görevleri için popülerdir.
Gerçek Dünya Örnekleri
- Otonom Araçlar: Otonom araçlar için bir nesne tespiti modelini eğitmek için geliştiriciler, kameralardan ve sensörlerden elde edilen büyük miktarda eğitim verisi kullanır. Bu veriler, her karenin titizlikle etiketlendiği görüntü ve videolardan oluşur. Yayalar, bisikletliler, diğer arabalar ve trafik işaretleri sınırlayıcı kutular içine alınır. Argoverse veya nuScenes gibi veri kümeleri üzerinde eğitim yaparak, aracın yapay zekası çevresini algılamayı ve güvenli bir şekilde gezinmeyi öğrenir.
- Tıbbi Görüntü Analizi: Sağlık hizmetlerinde, tıbbi görüntü analizi için eğitim verileri binlerce MRI veya BT taramasından oluşabilir. Radyologlar, tümörleri, kırıkları veya diğer patolojileri vurgulamak için bu görüntüleri etiketler. Ultralytics YOLO ile oluşturulmuş bir model gibi bir ML modeli, doktorların daha hızlı ve daha doğru teşhisler koymasına yardımcı olacak güçlü bir araç olarak bu anormallikleri tanımlamayı öğrenmek için bir beyin tümörü veri kümesi üzerinde eğitilebilir. Kanser Görüntüleme Arşivi (TCIA) gibi kaynaklar, araştırma için bu tür verilere kamu erişimi sağlar.
Eğitim Verileri - Doğrulama ve Test Verileri Karşılaştırması
Tipik bir ML projesinde, veriler üç ayrı kümeye ayrılır:
Güvenilir modeller geliştirmek için bu veri kümeleri arasında katı bir ayrım yapmak önemlidir. Son teknoloji modeller genellikle kapsamlı eğitim verileri görevi gören COCO veya ImageNet gibi büyük kıyaslama veri kümelerinde önceden eğitilir. Google Dataset Search ve Kaggle Datasets gibi platformlarda daha fazla veri kümesi bulabilirsiniz.