Sözlük

Veri Kayması

Makine öğreniminde veri kayması türlerini, nedenlerini ve çözümlerini keşfedin. Sağlam yapay zeka modelleri için veri kaymasının nasıl tespit edileceğini ve azaltılacağını öğrenin.

Veri kayması, bir modelin üretimde karşılaştığı verilerin istatistiksel özellikleri, üzerine inşa edildiği eğitim verilerine kıyasla zaman içinde değiştiğinde ortaya çıkan makine öğreniminde (ML) yaygın bir zorluktur. Bu değişim, modelin hazırlıklı olmadığı veriler üzerinde çalıştığı anlamına gelir ve bu da tahmin performansında sessiz ama önemli bir düşüşe yol açabilir. Veri kaymasını etkili bir şekilde yönetmek, MLOps yaşam döngüsünün kritik bir bileşenidir ve Yapay Zeka (AI) sistemlerinin model dağıtımından sonra güvenilir kalmasını sağlar. Proaktif model izleme olmadan, bu sorun tespit edilemeyebilir ve kötü kararlara ve olumsuz iş sonuçlarına yol açabilir.

Veri Kayması ve Kavram Kayması

Veri kaymasını ilgili bir sorun olan kavram kaymasından ayırt etmek önemlidir. Her ikisi de model performansını düşürebilirken, nedenleri farklıdır.

  • Veri Kayması: Özellik veya ortak değişken kayması olarak da bilinen bu durum, girdi verilerinin dağılımı değiştiğinde, ancak girdiler ve çıktılar arasındaki temel ilişki sabit kaldığında meydana gelir. Örneğin, bir tür kameradan alınan görüntüler üzerinde eğitilen bir bilgisayarla görme modeli, farklı sensör özelliklerine sahip yeni bir kameradan alınan görüntülerde düşük performans gösterebilir. Algılanan nesnelerin tanımı aynıdır, ancak girdi verilerinin özellikleri değişmiştir.
  • Kavram Kayması: Bu durum, hedef değişkenin istatistiksel özellikleri zaman içinde değiştiğinde ortaya çıkar. Girdi özellikleri ile çıktı değişkeni arasındaki temel ilişki değişir. Örneğin bir finansal dolandırıcılık tespit sisteminde, dolandırıcılar tarafından kullanılan taktikler gelişerek "dolandırıcılık" işlemini neyin oluşturduğunu değiştirir. Kavram kaymasının ayrıntılı bir incelemesi akademik literatürde bulunabilir.

Gerçek Dünyadan Örnekler

  1. Perakende Envanter Yönetimi: Yapay zeka güdümlü bir perakende sistemi, raf stokunu izlemek için kamera beslemelerini ve Ultralytics YOLO11 gibi bir nesne algılama modelini kullanır. Model, belirli bir ürün ambalajı seti üzerinde eğitilir. Bir tedarikçi ambalaj tasarımını değiştirirse veya mağaza aydınlatmasını yükseltirse, bu veri kaymasına neden olur. Yeni görsel veriler, orijinal eğitim veri setinden farklıdır ve potansiyel olarak modelin ürünleri tanımada başarısız olmasına neden olarak yanlış envanter sayımlarına yol açar.
  2. Otonom Araçlar: Sürücüsüz araçlar, belirli coğrafi konumlardan ve hava koşullarından alınan büyük miktarda sensör verisi üzerinde eğitilmiş modeller kullanır. Bir araç yeni bir şehirde konuşlandırılırsa veya kar gibi nadir bir hava olayıyla ilk kez karşılaşırsa, algılama sistemi veri kaymasıyla karşı karşıya kalır. Girdilerin dağılımı (örn. yol işaretleri, trafik işaretleri, yaya davranışı) eğitim deneyiminden önemli ölçüde farklıdır, bu da güvenliği tehlikeye atabilir ve acil müdahale gerektirir. Waymo ve diğer otonom sürüş şirketleri bunu tespit etmek ve hafifletmek için büyük yatırımlar yapmaktadır.

Veri Kaymasını Tespit Etme ve Azaltma

Veri kaymasının tespit edilmesi ve ele alınması, izleme ve bakım stratejilerinin bir kombinasyonunu içeren devam eden bir süreçtir.

Tespit Yöntemleri

Hafifletme Stratejileri

  • Yeniden Eğitim: En basit strateji, modeli mevcut üretim ortamını yansıtan taze, yeni veriler üzerinde düzenli olarak yeniden eğitmektir. Ultralytics HUB gibi platformlar, kolay yeniden eğitim ve dağıtım iş akışlarını kolaylaştırır.
  • Çevrimiçi Öğrenme: Bu, yeni veriler geldikçe modelin aşamalı olarak güncellenmesini içerir. Gürültülü verilere karşı hassas olabileceğinden ve modelin performansının öngörülemeyen şekilde dalgalanmasına neden olabileceğinden dikkatli kullanılmalıdır.
  • Veri Büyütme: İlk eğitim aşamasında veri artırma tekniklerini proaktif olarak kullanmak, modeli aydınlatma, ölçek veya yön değişiklikleri gibi belirli türdeki değişikliklere karşı daha dayanıklı hale getirebilir.
  • Alan Uyarlaması: Bir kaynak veri dağılımı üzerinde eğitilen bir modeli farklı ancak ilgili bir hedef veri dağılımına açıkça uyarlamaya çalışan gelişmiş tekniklerin kullanılması. Bu, makine öğrenimi araştırmalarının aktif bir alanıdır.

Veri kaymasını etkili bir şekilde yönetmek, PyTorch veya TensorFlow gibi çerçevelerle oluşturulan yapay zeka sistemlerinin operasyonel ömürleri boyunca doğru kalmasını ve değer sunmasını sağlamak için hayati önem taşır. Blogumuzda model bakımıyla ilgili en iyi uygulamalar hakkında daha fazla bilgi edinebilirsiniz.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı