Data Drift
Veri kaymasının ML modeli doğruluğu üzerindeki etkisini keşfet. Sağlam MLOps için Ultralytics YOLO26 ve Ultralytics Platform'u kullanarak kaymaları nasıl tespit edeceğini ve hafifleteceğini öğren.
Data drift refers to a phenomenon in machine learning (ML) where the statistical properties of the input data observed in a production environment change over time compared to the training data originally used to build the model. When a model is deployed, it operates under the implicit assumption that the real-world data it encounters will fundamentally resemble the historical data it learned from. If this assumption is violated due to shifting environmental conditions or user behaviors, the model's accuracy and reliability can degrade significantly, even if the model's code and parameters remain unchanged. Detecting and managing data drift is a critical component of Machine Learning Operations (MLOps), ensuring that AI systems continue to deliver value after model deployment.
Link to this sectionVeri Kayması ve Kavram Kayması#
Yapay zeka sistemlerini etkili bir şekilde sürdürmek için veri kaymasını, yakından ilişkili bir terim olan kavram kaymasından ayırt etmek şarttır. Her ikisi de performans düşüşüne yol açsa da, bunlar ortamdaki farklı değişikliklerden kaynaklanır.
- Veri Kayması (Değişken Kayması): Bu durum, girdi özelliklerinin dağılımı değiştiğinde ancak girdiler ile hedef çıktı arasındaki ilişki sabit kaldığında meydana gelir. Örneğin, bilgisayarlı görmede (CV), bir model gündüz çekilen görüntüler üzerinde eğitilmiş olabilir. Kamera alacakaranlıkta görüntü yakalamaya başlarsa, girdi dağılımı (aydınlatma, gölgeler) kaymış olur ancak "araba" veya "yaya" tanımı aynı kalır.
- Kavram Kayması: Bu, girdi özellikleri ile hedef değişken arasındaki istatistiksel ilişki değiştiğinde gerçekleşir. Başka bir deyişle, temel gerçeklik tanımı evrimleşir. Örneğin, finansal dolandırıcılık tespitinde, dolandırıcılar taktiklerini uyarladıkça dolandırıcılık faaliyetini oluşturan modeller genellikle değişir ve bu da güvenli ile dolandırıcılık içeren işlemler arasındaki sınırı değiştirir.
Link to this sectionGerçek Dünya Uygulamaları ve Örnekleri#
Veri kayması, Yapay Zekanın (AI) dinamik, fiziksel ortamlarla etkileşime girdiği sektörlerde yaygın bir zorluktur.
-
Otonom Sistemler: Otonom araçlar alanında, algılama modelleri güvenli bir şekilde yön bulmak için nesne tespitine güvenir. Öncelikle güneşli Kaliforniya yollarından gelen verilerle eğitilmiş bir model, yoğun kar yağışı olan bir bölgede kullanılırsa ciddi veri kayması yaşayabilir. Görsel girdiler (karla kaplı şeritler, gizlenmiş tabelalar) eğitim setinden büyük ölçüde farklıdır ve bu durum şerit tespiti gibi güvenlik özelliklerini tehlikeye atabilir.
-
Sağlık Hizmetlerinde Görüntüleme: Tıbbi görüntü analizi sistemleri, hastaneler donanımlarını yükselttiğinde kaymadan etkilenebilir. Bir model belirli bir tarayıcı üreticisinden alınan röntgen görüntüleri üzerinde eğitilmişse, farklı çözünürlük veya kontrast ayarlarına sahip yeni bir makinenin sisteme dahil edilmesi veri dağılımında bir kaymayı temsil eder. Model bakımı yapılmazsa, tanısal performans düşebilir.
Link to this sectionTespit ve Azaltma Stratejileri#
Kaymayı erken tanımlamak, modelin emin ancak hatalı tahminler yaptığı "sessiz hata" durumunu önler. Ekipler, bu anormalliklerin iş çıktılarını etkilemeden önce tespit edilmesi için çeşitli stratejiler kullanır.
Link to this sectionTespit Yöntemleri#
- İstatistiksel Testler: Mühendisler genellikle gelen üretim verilerinin dağılımını eğitim taban çizgisiyle matematiksel olarak karşılaştırmak için Kolmogorov-Smirnov testi gibi yöntemler kullanırlar.
- Performance Monitoring: Tracking metrics such as precision and recall in real-time can act as a proxy for drift detection. A sudden drop in the average confidence score of a YOLO26 model often indicates that the model is struggling with novel data patterns.
- Visualization: Tools like TensorBoard or specialized platforms like Grafana allow teams to visualize histograms of feature distributions, making it easier to spot shifts visually.
Link to this sectionAzaltma Teknikleri#
- Retraining: The most robust solution is often to retrain the model. This involves collecting the new, drifted data, annotating it, and combining it with the original dataset. The Ultralytics Platform simplifies this process by providing tools for dataset management and cloud training.
- Veri Çoğaltma: İlk eğitim sırasında parlaklığı değiştirme, gürültü ekleme veya görüntüleri döndürme gibi kapsamlı veri çoğaltma işlemleri uygulamak, modeli küçük çevresel değişikliklere karşı daha dayanıklı hale getirebilir.
- Alan Uyarlaması: Transfer öğrenimi içindeki teknikler, modellerin daha az miktarda etiketli veri kullanarak yeni bir hedef alana uyum sağlamasına olanak tanır ve kaynak eğitim ortamı ile yeni üretim gerçekliği arasındaki boşluğu kapatır.
Modelinin tahminlerinin güven düzeyini kontrol ederek temel kayma izlemesini uygulayabilirsin. Ortalama güven düzeyi sürekli olarak güvenilir bir eşik değerin altına düşerse, bu durum veri incelemesi için bir uyarıyı tetikleyebilir.
from ultralytics import YOLO
# Load the official YOLO26 model
model = YOLO("yolo26n.pt")
# Run inference on a new image from the production stream
results = model("https://ultralytics.com/images/bus.jpg")
# Monitor confidence scores; consistently low scores may signal data drift
for result in results:
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf.item():.2f}")Veri kaymasını yönetmek tek seferlik bir düzeltme değil, sürekli bir yaşam döngüsü sürecidir. Bulut sağlayıcıları, bunu otomatikleştirmek için AWS SageMaker Model Monitor veya Google Cloud Vertex AI gibi yönetilen hizmetler sunar. Bu değişimleri proaktif bir şekilde izleyerek kuruluşlar, modellerinin sağlam kalmasını sağlar ve yüksek yapay zeka güvenliği ve operasyonel verimlilik standartlarını korurlar.






