Data Leakage
Makine öğreniminde veri sızıntısının ne olduğunu keşfet ve onu nasıl önleyeceğini öğren. Ultralytics YOLO hattını güvende tutmak için en iyi uygulamaları keşfet.
Makine öğrenimi (ML) süreçlerinde veri sızıntısı, eğitim verisi dışından gelen bilgilerin bir model oluşturmak için uygunsuz bir şekilde kullanılması durumunda meydana gelir. Bu gizli algoritmik kusur, eğitim ve model testi sırasında olağanüstü bir performans sergileniyormuş gibi yanıltıcı bir illüzyon yaratır, ancak model gerçek dünyadaki görülmemiş verilerle karşılaştığında ciddi bir genelleme başarısızlığına yol açar. Veri sızıntısının yetkisiz veri ifşası anlamına geldiği geleneksel siber güvenlik tanımlarının aksine, makine öğreniminde veri sızıntısı tanımı tamamen eğitim kirlenmesi ve tehlikeye giren tahminsel bütünlük üzerine odaklanır.
Link to this sectionVeri Sızıntısı Nasıl Oluşur#
Makine öğreniminde veri sızıntısının ne olduğunu anlamak için, bu hata noktasının modern süreçlerde ortaya çıktığı iki temel mekanizmaya bakmak faydalı olur:
- Eğitim-Test Kirlenmesi: Bu durum, test verisi yanlışlıkla eğitim setine karıştığında meydana gelir. Yaygın bir neden, veri ön işleme işlemlerini (normalizasyon veya ortalama değer hesaplama gibi) bu dönüşümleri bağımsız olarak uygulamak yerine, veriyi bölmeden önce tüm veri seti üzerinde gerçekleştirmektir.
- Hedef Sızıntısı: Bu, tahminsel özellikler, çıkarım anında mantıksal olarak mevcut olmayacak bilgiler içerdiğinde meydana gelir. Örneğin, hedef değişkenin doğrudan bir sonucu olan bir özelliği dahil etmek, modele cevabı önceden vermektir.
Link to this sectionGerçek Dünyadan Veri Sızıntısı Örnekleri#
Sızıntıyı nasıl fark edeceğini ve önleyeceğini anlamak, güvenilir yapay zeka oluşturmak için kritiktir. İşte bu kavramın üretim dağıtımlarını nasıl bozduğuna dair iki somut örnek:
- Sağlık Sektöründe Yapay Zeka: Eğer bir tıp merkezi akciğer hastalığını tespit etmek için hastaların X-ışınlarını kullanarak bir algoritma eğitirse, ancak pozitif taramaların tümü doktorlar tarafından teşhis sonrası yerleştirilen cerrahi işaretleyiciler içeriyorsa, hedef sızıntısı meydana gelir. Model, hastalığın biyolojik belirtilerini öğrenmek yerine sadece cerrahi işaretleyiciyi tanımlamayı öğrenir.
- Bilgisayarlı Görü ile Video Analizi: Eylem tanıma gibi görsel görevlerde, ardışık video karelerini rastgele bir şekilde eğitim ve doğrulama setlerine ayırmak, ciddi bir eğitim-test kirlenmesine neden olur. Ardışık kareler neredeyse birbirinin aynısı olduğundan, model karmaşık insan eylemini öğrenmek yerine örtüşen arka planları ezberler ve bu durum standart OpenAI model değerlendirme uygulamalarını ihlal eder.
Link to this sectionVeri Sızıntısı Önleme ve Koruma#
Veri sızıntısına karşı koruma, mühendislik yaşam döngüsü boyunca sıkı bir veri hijyeni sağlamaya ve yapılandırılmış ortamlar kullanmaya dayanır.
- Titiz Veri Bölme: Örtüşen örneklerin veya zaman serisi verilerinin sınırları aşmadığından emin olmak için kronolojik veya gruplandırılmış katı veri bölme yöntemlerini uygula; bu metodoloji AWS makine öğrenimi dokümantasyonunda yoğun bir şekilde vurgulanmaktadır.
- Çapraz Doğrulama Stratejileri: scikit-learn doğrulama kılavuzları tarafından önerildiği gibi, veri ölçeklendirme ve özellik mühendisliğinin kendi eğitim katmanları içinde sıkı bir şekilde sınırlandırıldığı sağlam doğrulama teknikleri kullan.
- Ultralytics Platform Veri Seti Yönetimi: Bulut tabanlı görü araçlarını kullanmak, veri seti sınırlarının güvenli bir şekilde ayrılmasını sağlar. Ultralytics YOLO26, katı veri seti yapılandırmalarına saygı duyar ve modelin öğrenme aşamasında doğrulama görsellerine yanlışlıkla erişmemesini sağlar.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")
# Train the model using a strict dataset configuration (data.yaml)
# The YAML file enforces rigid, isolated paths for 'train' and 'val' directories,
# ensuring data leakage protection between the learning and evaluation phases.
results = model.train(data="dataset.yaml", epochs=50, imgsz=640)Link to this sectionVeri Sızıntısını İlgili Kavramlardan Ayırmak#
Terminoloji veri bilimi ve siber güvenlik arasında sıklıkla iç içe geçtiğinden, veri sızıntısını yakından ilişkili fikirlerden ayırt etmek önemlidir.
- Aşırı Öğrenme (Overfitting): Her iki sorun da modellerin üretimde başarısız olmasına neden olsa da, aşırı öğrenme modelin geçerli ve yalıtılmış bir eğitim seti içindeki doğal gürültüyü ezberlemesi anlamına gelir. Veri sızıntısı ise modelin test cevaplarına gayri meşru erişim sağlaması anlamına gelir.
- Veri Güvenliği: BT dünyasında, veri sızıntısını önleme; güvenlik duvarları, şifreleme ve sıkı erişim kontrolleri kullanarak yetkisiz veri ifşasını önlemeyi içerir. Bu, kurumsal veri gizliliği çerçeveleri kapsamına girer. Güvenlik şirketleri, Rapid7 tehdit istihbaratı veya SecurityScorecard'ın önleme genel bakışı aracılığıyla daha fazla bilgi edinebileceğin bu yönüne yoğun bir şekilde odaklanır. Alternatif olarak, Wiz'in veri güvenliği akademisi, bulut yanlış yapılandırmalarının bu tür ifşalara nasıl yol açtığını ana hatlarıyla açıklar ki bu durum, makine öğreniminde tartışılan algoritmik kirlenmeden tamamen farklıdır.






