Yolo Vision Shenzhen
Shenzhen
Şimdi katılın
Sözlük

Veri Temizleme

AI modelinin doğruluğunu artırmak için ana veri temizlemeyi öğrenin. Hataları giderme, eksik değerleri işleme ve Ultralytics için temiz veri kümeleri hazırlama tekniklerini öğrenin.

Veri temizleme, bir kayıt kümesinden, tablodan veya veritabanından bozuk, yanlış veya alakasız kayıtları tespit etme ve düzeltme (veya kaldırma) işleminin kritik bir parçasıdır. Yapay zeka (AI) ve makine öğrenimi (ML) alanında, bu adım genellikle iş akışının en zaman alıcı ancak en önemli parçası olarak kabul edilir. YOLO26 gibi bir modelin nesneleri etkili bir şekilde tanımayı öğrenebilmesi için, eğitim verilerindeki hatalar giderilmeli ve kalitesiz girdilerin güvenilmez çıktılara yol açtığı "Garbage In, Garbage Out" (Giriş Çöp, Çıkış Çöp) fenomeni önlenmelidir.

Yapay Zekada Veri Bütünlüğünün Önemi

Yüksek performanslı bilgisayar görme modelleri, kullandıkları veri kümelerinin kalitesine büyük ölçüde bağlıdır. Bir veri kümesi yanlış etiketlenmiş görüntüler, yinelenenler veya bozuk dosyalar içeriyorsa, model kalıpları genelleştirmekte zorlanır ve bu da aşırı uyum veya düşük çıkarım doğruluğuna yol açar. Etkili veri temizleme, tahmin modellerinin güvenilirliğini artırır ve algoritmanın gürültüden ziyade geçerli sinyallerden öğrenmesini sağlar.

Yaygın Veri Temizleme Teknikleri

Uygulayıcılar, aşağıdaki gibi araçları kullanarak veri kümelerini iyileştirmek için çeşitli stratejiler kullanırlar Pandas gibi araçları kullanarak veri kümelerini iyileştirmek için çeşitli stratejiler kullanırlar.

  • Eksik Değerlerin İşlenmesi: Bu, eksik verileri içeren kayıtların kaldırılmasını veya istatistiksel ortalamalara veya en yakın komşulara dayalı olarak boşlukları doldurmak için imputasyon tekniklerinin kullanılmasını içerir.
  • Yinelenenlerin Kaldırılması: Eğitim kümesindeki yinelenen görüntüler, modeli istemeden önyargılı hale getirebilir. Bunları kaldırmak, modelin belirli örnekleri ezberlemesini önleyerek veri kümesinin önyargısını azaltmaya yardımcı olur .
  • Aykırı Değer Tespiti: normdan önemli ölçüde sapan anormallikleri veya aykırı değerleri belirlemek ve ele almak, bunlar istatistiksel analizi ve model ağırlıklarını çarpıtabileceğinden çok önemlidir.
  • Yapısal Onarım: Bu, sınıf tutarlılığını sağlamak için sınıf etiketlerindeki yazım hatalarını düzeltmeyi içerir (örneğin, "Car" ile "car" arasındaki farkı düzeltmek). "car")

Gerçek Dünya Uygulamaları

Veri temizleme, yapay zekanın kullanıldığı çeşitli sektörlerde çok önemlidir.

  • Tıbbi Görüntü Analizi: Sağlık hizmetleri AI uygulamalarında, veri kümeleri genellikle artefaktlar, yanlış hasta meta verileri veya alakasız arka plan gürültüsü içeren taramalar içerir. Bu verilerin temizlenmesi, tıbbi görüntü analiz modellerinin yalnızca tanı ile ilgili biyolojik belirteçlere odaklanmasını sağlar.
  • Perakende Envanter Yönetimi: Perakendede yapay zeka için, ürün veri kümeleri eski ürünleri veya yanlış en boy oranlarına sahip görüntüleri içerebilir. Bu veri kümelerinin temizlenmesi, nesne algılama modellerinin stok seviyelerini doğru bir şekilde belirleyebilmesini ve canlı bir ortamda yanlış pozitifleri azaltmasını sağlar.

Veri Temizleme ile Ön İşlemeyi Ayırt Etme

Sıklıkla birbirinin yerine kullanılmasına rağmen, veri temizleme veri ön işleme işleminden farklıdır. Veri temizleme, hataları düzeltmeye ve "kötü" verileri kaldırmaya odaklanır. Buna karşılık, ön işleme, temiz verileri modele uygun bir biçime dönüştürmeyi içerir; örneğin görüntü boyutlandırma, normalleştirme veya çeşitliliği artırmak için veri artırma uygulaması.

Kalite Kontrollerinin Otomatikleştirilmesi

Ultralytics bulunanlar gibi modern iş akışları, eğitim başlamadan önce bozuk görüntüleri veya etiket tutarsızlıklarını tespit etmek için otomatik kontroller entegre eder. Aşağıda, YOLO26 gibi bir modele veri beslemeden önce yaygın olarak kullanılan bir adım olan standart Pillow kütüphanesini kullanarak bozuk görüntü dosyalarını nasıl kontrol edip tespit edeceğinizi gösteren basit Python bulunmaktadır. YOLO26.

from pathlib import Path

from PIL import Image


def verify_images(dataset_path):
    """Iterates through a directory to identify corrupt images."""
    for img_path in Path(dataset_path).glob("*.jpg"):
        try:
            with Image.open(img_path) as img:
                img.verify()  # Checks file integrity
        except (OSError, SyntaxError):
            print(f"Corrupt file found: {img_path}")


# Run verification on your dataset
verify_images("./coco8/images/train")

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın