Veri Kayması
Makine öğreniminde veri kayması türlerini, nedenlerini ve çözümlerini keşfedin. Sağlam yapay zeka modelleri için veri kaymasının nasıl detect edileceğini ve azaltılacağını öğrenin.
Veri kayması aşağıdaki durumlarda görülen bir olgudur
makine öğrenimi (ML), istatistiksel
Bir üretim ortamında gözlemlenen girdi verilerinin özellikleri zaman içinde
Başlangıçta modeli oluşturmak için kullanılan eğitim verileri.
Bir model kurulduğunda, gelecekteki verilerin öğrendiği geçmiş verilere benzeyeceği varsayımına dayanır
itibaren. Gerçek dünya koşullarının değişmesi nedeniyle bu varsayım ihlal edilirse, modelin
doğruluk ve güvenilirlik önemli ölçüde azalabilir, hatta
modelin kendisi değişmeden kalırsa. Veri sürüklenmesini tespit etmek ve yönetmek, aşağıdakilerin temel bir yönüdür
Makine Öğrenimi Operasyonları (MLOps), sistemlerin daha sonra da en iyi şekilde çalışmaya devam etmesini sağlar
model dağıtımı.
Veri Kayması ve Kavram Kayması
YZ sistemlerinin etkin bir şekilde sürdürülebilmesi için, veri kaymasını yakından ilişkili bir terim olan kavram kaymasından ayırmak çok önemlidir
sürüklenme. Her ikisi de performans düşüşüne yol açsa da, farklı kaynaklardan kaynaklanırlar.
-
Veri Kayması (Kovaryans Kayması): Bu, girdi özelliklerinin dağılımı değiştiğinde meydana gelir, ancak
girdiler ve hedef çıktı arasındaki temel ilişki aynı kalır. Örneğin, içinde
bilgisayarla görme (CV), bir model eğitilebilir
gün ışığında çekilen görüntülerde. Üretim kamerası gece görüntüleri göndermeye başlarsa, giriş dağılımı
sürüklenmiş olsa da tespit edilen nesnelerin tanımı değişmemiştir.
-
Kavram Kayması: Bu, hedef değişkenin tanımı değiştiğinde gerçekleşir. Bu
girdiler ve çıktılar arasındaki ilişki değişir. Örneğin, bir
finansal dolandırıcılık tespit sistemi,
Dolandırıcılar tarafından kullanılan yöntemler zaman içinde gelişir. Dün güvenli bir işlem olarak kabul edilen şey, bugün bir dolandırıcılık olabilir.
bugün. Hakkında daha fazlasını okuyabilirsiniz
akademik araştırmalarda kavram kayması.
Gerçek Dünya Uygulamaları ve Örnekleri
Veri kayması çok çeşitli sektörleri etkilemektedir
Yapay Zeka (AI) uygulanır
dinamik ortamlara.
-
Otomatik Üretim: Bir
Üretim ortamında yapay zeka, bir
tanımlamak için nesne algılama modeli kullanılabilir
montaj hattındaki kusurlar. Eğer fabrika, renk sıcaklığını değiştiren yeni LED aydınlatma kurarsa
çekilen görüntüler, girdi veri dağılımı değişir. Daha eski aydınlatmaya sahip görüntüler üzerinde eğitilen model
veri kayması yaşar ve kusurları doğru bir şekilde tanımlayamaz, bu da
model bakımı.
-
Otonom Sürüş:
Otonom araçlar büyük ölçüde
Geniş veri kümeleri üzerinde eğitilmiş algı modelleri. Öncelikle güneşli Kaliforniya yollarında eğitilmiş bir araç, bir
Karlı bir bölgede, görsel veriler (girdiler) eğitim setinden büyük ölçüde farklı olacaktır. Bu, önemli ölçüde
gibi güvenlik özelliklerini potansiyel olarak tehlikeye atan veri kayması
şerit algılama. Waymo gibi şirketler bu tür kaymaları sürekli olarak izleyerek araçların
Güvenlik.
Sürüklenmeyi Tespit Etme ve Azaltma
Veri sapmasının erken tespit edilmesi, bir modelin kendinden emin ancak yanlış kararlar verdiği "sessiz başarısızlığı" önler
Tahminler.
Tespit Stratejileri
-
İstatistiksel Testler: Teknisyenler genellikle yeni verilerin dağılımını karşılaştırmak için istatistiksel yöntemler kullanırlar.
eğitim taban çizgisine karşı veri. Bu
Kolmogorov-Smirnov testi
iki veri kümesinin önemli ölçüde farklı olup olmadığını belirlemek için kullanılan popüler bir parametrik olmayan testtir.
-
Performans İzleme: Aşağıdaki gibi metriklerin izlenmesi
hassas,
geri çağırma ve
Gerçek zamanlı F1-skoru sapma sinyali verebilir. Eğer bu metrikler
beklenmedik bir şekilde düşmesi, genellikle gelen verinin artık modelin öğrenilen kalıplarıyla eşleşmediğini gösterir.
-
Görselleştirme Araçları: Gibi platformlar
TensorBoard ekiplerin verileri görselleştirmesine olanak tanır
anormallikleri tespit etmek için dağılımlar ve kayıp eğrileri. Daha kapsamlı izleme için, uzman
gibi gözlemlenebilirlik araçları
Prometheus ve Grafana şu alanlarda yaygın olarak kullanılmaktadır
sektörde.
Hafifletme Teknikleri
-
Yeniden eğitim: En doğrudan çözüm, yeni bir model kullanarak modeli yeniden eğitmektir.
son, sürüklenmiş verileri içeren veri kümesi. Bu güncellemeler
modelin iç sınırlarını mevcut gerçekliği yansıtacak şekilde değiştirir.
-
Veri Büyütme: İlk eğitim aşaması sırasında, sağlam
veri artırma teknikleri (rotasyon gibi,
renk titremesi ve gürültü) modeli aydınlatma değişiklikleri veya kamera gibi küçük sapmalara karşı daha dirençli hale getirebilir.
hareketler.
-
Etki Alanı Uyarlaması: Bu, bir kaynak etki alanı üzerinde eğitilmiş bir modeli, bir kaynak etki alanına uyarlamak için tasarlanmış teknikleri içerir.
farklı bir dağılıma sahip bir hedef etki alanında iyi performans gösterir. Bu aktif bir alandır
transfer öğrenme araştırması.
Kullanarak ultralytics paketi sayesinde, çıkarım sırasında güven puanlarını kolayca izleyebilirsiniz. Ani bir veya
Bilinen bir sınıf için ortalama güvendeki kademeli düşüş, veri sapmasının güçlü bir öncü göstergesi olabilir.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on a new image from the production stream
results = model("path/to/production_image.jpg")
# Inspect confidence scores; consistently low scores may indicate drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")
YZ Yaşam Döngüsündeki Önemi
Veri kaymasını ele almak tek seferlik bir düzeltme değil, sürekli bir süreçtir. Çerçeveler ile oluşturulan modellerin
gibi PyTorch veya
TensorFlow değerli varlıklar olarak kalmak yerine
yükümlülükler. Bulut sağlayıcıları bunu otomatikleştirmek için yönetilen hizmetler sunar, örneğin
AWS SageMaker Model Monitörü ve
Google Cloud Vertex AI, şunları yapabilir
sürüklenme eşikleri ihlal edildiğinde mühendisleri uyarır. Veri kaymasını proaktif bir şekilde yöneterek kuruluşlar
yüksek AI güvenliği ve operasyonel verimlilik standartları.