Data Cleaning
Yapay zeka modeli doğruluğunu artırmak için veri temizlemede ustalaş. Hataları kaldırmak, eksik değerleri ele almak ve Ultralytics YOLO26 için temiz veri kümeleri hazırlamak adına teknikleri öğren.
Veri temizleme; bir kayıt kümesinden, tablodan veya veritabanından bozuk, yanlış veya alakasız kayıtları tespit etme ve düzeltme (veya kaldırma) işlemidir. Yapay zeka (AI) ve makine öğrenimi (ML) dünyasında bu adım, genellikle iş akışının en çok zaman alan ancak en temel parçası olarak kabul edilir. YOLO26 gibi bir model nesneleri tanımayı etkili bir şekilde öğrenmeden önce, eğitim verileri, düşük kaliteli girdinin güvenilmez çıktıya yol açtığı "Çöp Girdi, Çöp Çıktı" fenomenini önlemek için hatalardan arındırılmalıdır.
Link to this sectionYapay Zekada Veri Bütünlüğünün Önemi#
Yüksek performanslı bilgisayarlı görü modelleri, tükettikleri veri kümelerinin kalitesine büyük ölçüde güvenir. Bir veri kümesi yanlış etiketlenmiş görüntüler, kopyalar veya bozuk dosyalar içeriyorsa, model örüntüleri genelleştirmekte zorlanır ve bu da aşırı öğrenmeye (overfitting) veya düşük çıkarım doğruluğuna yol açar. Etkili veri temizleme, tahminleyici modellerin güvenilirliğini artırır ve algoritmanın gürültüden ziyade geçerli sinyallerden öğrenmesini sağlar.
Link to this sectionYaygın Veri Temizleme Teknikleri#
Uygulayıcılar, tablo verileri için Pandas gibi araçları veya özel görü araçlarını kullanarak veri kümelerini iyileştirmek için çeşitli stratejiler kullanırlar.
- Eksik Değerlerin Ele Alınması: Bu, eksik verileri olan kayıtların kaldırılmasını veya istatistiksel ortalamalara ya da en yakın komşulara dayalı boşlukları doldurmak için imputasyon tekniklerinin kullanılmasını içerir.
- Kopyaların Kaldırılması: Bir eğitim kümesindeki yinelenen görüntüler, modeli istemeden yanlı hale getirebilir. Bunları kaldırmak, modelin belirli örnekleri ezberlememesini sağlar ve veri kümesi yanlılığını azaltmaya yardımcı olur.
- Aykırı Değer Tespiti: Normdan önemli ölçüde sapan anomalileri veya aykırı değerleri tespit etmek ve ele almak çok önemlidir; çünkü bunlar istatistiksel analizi ve model ağırlıklarını saptırabilir.
- Yapısal Onarım: Bu, sınıf tutarlılığını sağlamak için sınıf etiketlerindeki yazım hatalarını düzeltmeyi (örneğin, "Car" ve "car" ayrımını düzeltmek) içerir.
Link to this sectionGerçek Dünya Uygulamaları#
Veri temizleme, yapay zekanın konuşlandırıldığı çeşitli sektörlerde çok önemlidir.
- Tıbbi Görüntü Analizi: Sağlık sektörü yapay zeka uygulamalarında, veri kümeleri genellikle artefaktlar, yanlış hasta meta verileri veya alakasız arka plan gürültüsü içeren taramalar barındırır. Bu verilerin temizlenmesi, tıbbi görüntü analizi modellerinin yalnızca teşhisle ilgili biyolojik işaretleyicilere odaklanmasını sağlar.
- Perakende Stok Yönetimi: Perakendede yapay zeka için ürün veri kümeleri, eski ürünleri veya yanlış en-boy oranına sahip görüntüleri içerebilir. Bu veri kümelerini temizlemek, nesne algılama modellerinin stok seviyelerini doğru bir şekilde tanımlamasını ve canlı bir ortamda yanlış pozitif sonuçları azaltmasını sağlar.
Link to this sectionVeri Temizlemeyi Ön İşlemeden Ayırt Etme#
Genellikle birbirinin yerine kullanılsa da, veri temizleme veri ön işlemeden farklıdır. Veri temizleme, hataları düzeltmeye ve "kötü" verileri kaldırmaya odaklanır. Buna karşılık ön işleme, temiz verileri görüntü yeniden boyutlandırma, normalleştirme veya çeşitliliği artırmak için veri artırma uygulama gibi model için uygun bir formata dönüştürmeyi içerir.
Link to this sectionKalite Kontrollerini Otomatikleştirme#
Ultralytics Platform üzerinde mevcut olanlar gibi modern iş akışları, eğitim başlamadan önce bozuk görüntüleri veya etiket tutarsızlıklarını tespit etmek için otomatik kontrolleri entegre eder. Aşağıda, verileri YOLO26 gibi bir modele beslemeden önce atılan yaygın bir adım olan standart Pillow kütüphanesini kullanarak bozuk görüntü dosyalarının nasıl kontrol edileceğini ve tanımlanacağını gösteren basit bir Python örneği yer almaktadır.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")





