YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Eğitim Verileri

Yapay zekada eğitim verilerinin önemini keşfedin. Kaliteli veri kümelerinin gerçek dünya görevleri için doğru, sağlam makine öğrenmesi modellerini nasıl desteklediğini öğrenin.

Eğitim verileri, bir makine öğrenimi (ML) modeline doğru tahminler veya kararlar vermeyi öğretmek için kullanılan temel veri setidir. Denetimli öğrenmede, bu veriler, genellikle etiketler veya açıklamalar olarak adlandırılan, karşılık gelen doğru çıktılarla eşleştirilmiş girdi örneklerinden oluşur. Model, tahminleri ile gerçek etiketler arasındaki farkı en aza indirmek için dahili model ağırlıklarını ayarlayarak bu örneklerden yinelemeli olarak öğrenir. Eğitim verilerinin kalitesi, miktarı ve çeşitliliği, bir modelin performansını ve yeni, görülmemiş verilere genelleme yeteneğini etkileyen en kritik faktörlerdir.

Yüksek Kaliteli Eğitim Verisinin Önemi

"Çöp giren, çöp çıkar" ilkesi, özellikle ML modellerini eğitirken geçerlidir. Yüksek kaliteli veriler, sağlam ve güvenilir sistemler oluşturmak için çok önemlidir. Temel özellikler şunlardır:

  • Alaka: Veriler, modelin çözmesi amaçlanan problemi doğru bir şekilde yansıtmalıdır.
  • Çeşitlilik: Aşırı uyumu önlemek için modelin gerçek dünyada karşılaşacağı çok çeşitli senaryoları, uç durumları ve varyasyonları kapsamalıdır.
  • Doğru Etiketleme: Açıklamalar doğru ve tutarlı olmalıdır. Veri etiketleme süreci genellikle bir bilgisayarlı görü projesinin en çok zaman alan kısmıdır.
  • Yeterli Hacim: Modelin anlamlı kalıpları öğrenmesi için genellikle büyük miktarda veriye ihtiyaç vardır. Veri artırma gibi teknikler, veri kümesini yapay olarak genişletmeye yardımcı olabilir.
  • Düşük Yanlılık (Low Bias): Veriler, haksız veya yanlış model davranışına yol açabilecek veri kümesi yanlılığını (dataset bias) önlemek için dengeli ve temsil edici olmalıdır. Algoritmik yanlılığı (algorithmic bias) anlamak, sorumlu yapay zeka geliştirmenin önemli bir yönüdür.

Ultralytics HUB gibi platformlar, model geliştirme yaşam döngüsü boyunca veri kümelerini yönetmek için araçlar sağlarken, CVAT gibi açık kaynaklı araçlar etiketleme görevleri için popülerdir.

Gerçek Dünya Örnekleri

  1. Otonom Araçlar: Otonom araçlar için bir nesne tespiti modelini eğitmek için geliştiriciler, kameralardan ve sensörlerden elde edilen büyük miktarda eğitim verisi kullanır. Bu veriler, her karenin titizlikle etiketlendiği görüntü ve videolardan oluşur. Yayalar, bisikletliler, diğer arabalar ve trafik işaretleri sınırlayıcı kutular içine alınır. Argoverse veya nuScenes gibi veri kümeleri üzerinde eğitim yaparak, aracın yapay zekası çevresini algılamayı ve güvenli bir şekilde gezinmeyi öğrenir.
  2. Tıbbi Görüntü Analizi: Sağlık hizmetlerinde, tıbbi görüntü analizi için eğitim verileri binlerce MRI veya BT taramasından oluşabilir. Radyologlar, tümörleri, kırıkları veya diğer patolojileri vurgulamak için bu görüntüleri etiketler. Ultralytics YOLO ile oluşturulmuş bir model gibi bir ML modeli, doktorların daha hızlı ve daha doğru teşhisler koymasına yardımcı olacak güçlü bir araç olarak bu anormallikleri tanımlamayı öğrenmek için bir beyin tümörü veri kümesi üzerinde eğitilebilir. Kanser Görüntüleme Arşivi (TCIA) gibi kaynaklar, araştırma için bu tür verilere kamu erişimi sağlar.

Eğitim Verileri - Doğrulama ve Test Verileri Karşılaştırması

Tipik bir ML projesinde, veriler üç ayrı kümeye ayrılır:

  • Eğitim Verisi: Parametrelerini ayarlayarak modeli doğrudan eğitmek için kullanılan en büyük kısımdır. Etkili eğitim genellikle model eğitimi için ipuçlarının dikkatli bir şekilde değerlendirilmesini içerir.
  • Doğrulama Verisi: Modelin açıkça öğrenmediği veriler üzerindeki performansını değerlendirmek için eğitim sırasında periyodik olarak kullanılan ayrı bir alt küme. Bu, hiperparametrelerin (örneğin, öğrenme oranı, batch boyutu) Hiperparametre Optimizasyonu (Wikipedia) gibi süreçlerle ayarlanmasına yardımcı olur ve aşırı öğrenmeye karşı erken uyarı sağlar. Bu değerlendirme için doğrulama modu kullanılır.
  • Test Verileri (Test Data): Eğitim ve doğrulama sırasında görülmemiş, yalnızca model tamamen eğitildikten sonra kullanılan bağımsız bir veri kümesidir. Modelin genelleme yeteneğinin ve gerçek dünyadaki beklenen performansının nihai, tarafsız değerlendirmesini sağlar. Dağıtımdan önce titiz model testi çok önemlidir.

Güvenilir modeller geliştirmek için bu veri kümeleri arasında katı bir ayrım yapmak önemlidir. Son teknoloji modeller genellikle kapsamlı eğitim verileri görevi gören COCO veya ImageNet gibi büyük kıyaslama veri kümelerinde önceden eğitilir. Google Dataset Search ve Kaggle Datasets gibi platformlarda daha fazla veri kümesi bulabilirsiniz.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı