Sözlük

Eğitim Verileri

Yapay zekada eğitim verilerinin önemini keşfedin. Kaliteli veri kümelerinin gerçek dünyadaki görevler için doğru ve sağlam makine öğrenimi modellerini nasıl güçlendirdiğini öğrenin.

Eğitim verileri, bir makine öğrenimi (ML) modeline doğru tahminleri veya kararları nasıl vereceğini öğretmek için kullanılan temel veri kümesidir. Denetimli öğrenmede bu veriler, genellikle etiketler veya ek açıklamalar olarak adlandırılan, karşılık gelen doğru çıktılarla eşleştirilmiş girdi örneklerinden oluşur. Model, tahminleri ile gerçek etiketler arasındaki farkı en aza indirmek için dahili model ağırlıklarını ayarlayarak bu örneklerden yinelemeli olarak öğrenir. Eğitim verilerinin kalitesi, miktarı ve çeşitliliği, bir modelin performansını ve yeni, görülmemiş verilere genelleme yeteneğini etkileyen en kritik faktörlerdir.

Yüksek Kaliteli Eğitim Verilerinin Önemi

"Çöp girerse çöp çıkar" ilkesi özellikle makine öğrenimi modellerinin eğitimi için geçerlidir. Sağlam ve güvenilir sistemler oluşturmak için yüksek kaliteli veriler gereklidir. Temel özellikler şunları içerir:

  • Uygunluk: Veriler, modelin çözmeyi amaçladığı sorunu doğru bir şekilde yansıtmalıdır.
  • Çeşitlilik: Aşırı uyumdan kaçınmak için modelin gerçek dünyada karşılaşacağı çok çeşitli senaryoları, uç durumları ve varyasyonları kapsamalıdır.
  • Doğru Etiketleme: Ek açıklamalar doğru ve tutarlı olmalıdır. Veri etiketleme süreci genellikle bir bilgisayarla görme projesinin en çok zaman alan kısmıdır.
  • Yeterli Hacim: Modelin anlamlı kalıpları öğrenebilmesi için genellikle büyük miktarda veriye ihtiyaç duyulur. Veri artırma gibi teknikler veri kümesinin yapay olarak genişletilmesine yardımcı olabilir.
  • Düşük Önyargı: Adil olmayan veya yanlış model davranışına yol açabilecek veri kümesi önyargısını önlemek için veriler dengeli ve temsili olmalıdır. Algoritmik ön yargıyı anlamak, sorumlu yapay zeka geliştirmenin önemli bir yönüdür.

Ultralytics HUB gibi platformlar, model geliştirme yaşam döngüsü boyunca veri kümelerini yönetmek için araçlar sağlarken, CVAT gibi açık kaynaklı araçlar açıklama görevleri için popülerdir.

Gerçek Dünyadan Örnekler

  1. Otonom Araçlar: Otonom araçlara yönelik bir nesne algılama modelini eğitmek için geliştiriciler kamera ve sensörlerden alınan büyük miktarda eğitim verisi kullanır. Bu veriler, her karenin titizlikle etiketlendiği görüntü ve videolardan oluşur. Yayalar, bisikletliler, diğer arabalar ve trafik işaretleri sınırlayıcı kutular içine alınır. Argoverse veya nuScenes gibi veri kümeleri üzerinde eğitim alarak, aracın yapay zekası çevresini algılamayı ve güvenli bir şekilde yönlendirmeyi öğrenir.
  2. Tıbbi Görüntü Analizi: Sağlık hizmetlerinde, tıbbi görüntü analizi için eğitim verileri binlerce MRI veya CT taramasından oluşabilir. Radyologlar tümörleri, kırıkları veya diğer patolojileri vurgulamak için bu görüntülere açıklama ekler. Ultralytics YOLO ile oluşturulan gibi bir makine öğrenimi modeli, bu anomalileri tanımlamayı öğrenmek için bir beyin tümörü veri kümesi üzerinde eğitilebilir ve doktorların daha hızlı ve daha doğru teşhisler koymasına yardımcı olacak güçlü bir araç görevi görür. Kanser Görüntüleme Arşivi (TCIA) gibi kaynaklar, araştırma için bu tür verilere kamusal erişim sağlamaktadır.

Eğitim Verileri ile Doğrulama ve Test Verileri

Tipik bir makine öğrenimi projesinde veriler üç farklı kümeye ayrılır:

  • Eğitim Verileri: Parametrelerini ayarlayarak modeli eğitmek için doğrudan kullanılan en büyük kısım. Etkili eğitim genellikle model eğitimi için ipuçlarının dikkatlice değerlendirilmesini içerir.
  • Doğrulama Verileri: Modelin açıkça öğrenmediği veriler üzerindeki performansını değerlendirmek için eğitim sırasında periyodik olarak kullanılan ayrı bir alt küme. Bu, Hiperparametre Optimizasyonu (Wikipedia) gibi işlemler aracılığıyla hiperparametrelerin (örn. öğrenme oranı, yığın boyutu) ayarlanmasına yardımcı olur ve aşırı uyuma karşı erken bir uyarı sağlar. Bu değerlendirme için doğrulama modu kullanılır.
  • Test Verisi: Eğitim ve doğrulama sırasında görülmeyen, yalnızca model tamamen eğitildikten sonra kullanılan bağımsız bir veri kümesi. Modelin genelleme kabiliyetinin ve gerçek dünyada beklenen performansının nihai, tarafsız değerlendirmesini sağlar. Dağıtımdan önce titiz model testi çok önemlidir.

Bu veri kümeleri arasında kesin bir ayrım yapmak, güvenilir modeller geliştirmek için çok önemlidir. Son teknoloji modeller genellikle kapsamlı eğitim verisi olarak kullanılan COCO veya ImageNet gibi büyük kıyaslama veri kümeleri üzerinde önceden eğitilir. Google Dataset Search ve Kaggle Datasets gibi platformlarda daha fazla veri kümesi bulabilirsiniz.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı