Sözlük

Veri Temizliği

Yapay zeka ve makine öğrenimi projeleri için ana veri temizleme. Hataları düzeltmek, veri kalitesini artırmak ve model performansını etkili bir şekilde artırmak için teknikleri öğrenin!

Veri temizleme, bir veri kümesindeki bozuk, yanlış, eksik veya tutarsız verileri belirleme ve düzeltme veya kaldırma işlemidir. Eğitim verilerinin kalitesi, ortaya çıkan modelin performansını ve güvenilirliğini doğrudan belirlediğinden, herhangi bir makine öğrenimi (ML) iş akışında kritik bir ilk adımdır. "Çöp girerse çöp çıkar" ilkesini takip eden veri temizleme, Ultralytics YOLO gibi modellerin doğru ve tutarlı bilgiler üzerinde eğitilmesini sağlayarak daha iyi doğruluk ve daha güvenilir tahminlere yol açar. Uygun temizlik yapılmazsa, verilerin altında yatan sorunlar çarpık sonuçlara ve zayıf model genellemesine yol açabilir.

Temel Veri Temizleme Görevleri

Veri temizleme süreci, farklı veri kalitesi sorunlarını çözmek için tasarlanmış birkaç farklı görevi içerir. Bu görevler genellikle yinelemelidir ve alana özgü bilgi gerektirebilir.

  • Eksik Değerlerin İşlenmesi: Veri setleri genellikle eksik kayıtlar içerir ve bu eksik kayıtlar kaldırılarak veya ortalama, medyan gibi istatistiksel yöntemler veya daha gelişmiş tahmin modelleri kullanılarak eksik değerler imputing (doldurma) yoluyla ele alınabilir. Eksik verilerin işlenmesine ilişkin bir kılavuz daha fazla bilgi sağlayabilir.
  • Yanlış Verilerin Düzeltilmesi: Bu, yazım hatalarının, ölçüm tutarsızlıklarının (örn. lbs vs. kg) ve gerçekte yanlış bilgilerin düzeltilmesini içerir. Veri doğrulama kuralları genellikle bu hataları işaretlemek için uygulanır.
  • Mükerrer Kayıtları Kaldırma: Mükerrer kayıtlar, belirli veri noktalarına aşırı ağırlık vererek bir modele önyargı katabilir. Bu gereksiz girişlerin belirlenmesi ve kaldırılması standart bir adımdır.
  • Aykırı Değerleri Yönetme: Aykırı değerler, diğer gözlemlerden önemli ölçüde sapan veri noktalarıdır. Nedenlerine bağlı olarak, model eğitim sürecini olumsuz etkilemelerini önlemek için kaldırılabilir, düzeltilebilir veya dönüştürülebilirler. Bunun için aykırı değer tespit teknikleri yaygın olarak kullanılmaktadır.
  • Verilerin Standartlaştırılması: Bu, verilerin tutarlı bir formata uygun olmasını sağlamayı içerir. Örnekler arasında tarih formatlarının standartlaştırılması, metin kaplaması (örneğin, tüm metnin küçük harfe dönüştürülmesi) ve birim dönüşümleri yer alır. Tutarlı veri kalitesi standartları başarı için çok önemlidir.

Gerçek Dünya AI/ML Uygulamaları

  1. Tıbbi Görüntü Analizi: Beyin Tümörü veri kümesi gibi bir veri kümesi üzerinde bir nesne algılama modelini eğitirken, veri temizliği hayati önem taşır. Bu süreç, bozuk veya düşük kaliteli görüntü dosyalarının kaldırılmasını, tüm görüntülerin tutarlı bir çözünürlük ve formatta standartlaştırılmasını ve hasta etiketlerinin ve açıklamalarının doğru olduğunun doğrulanmasını içerir. Bu, modelin Sağlık Hizmetlerinde Yapay Zeka alanında güvenilir teşhis araçları geliştirmek için gerekli olan net ve güvenilir bilgilerden öğrenmesini sağlar. Ulusal Biyomedikal Görüntüleme ve Biyomühendislik Enstitüsü (NIBIB) tıbbi araştırmalarda kaliteli verinin önemini vurgulamaktadır.
  2. Perakende Envanter Yönetimi için Yapay Zeka: Yapay zeka odaklı perakendecilikte, bilgisayarla görme modelleri kamera görüntülerini kullanarak raf stoğunu izler. Bulanık görüntüleri filtrelemek, ürünlerin müşteriler tarafından gizlendiği kareleri kaldırmak ve birden fazla kamera açısından ürün sayılarını tekilleştirmek için veri temizleme gereklidir. Bu sorunların düzeltilmesi, envanter sisteminin stok seviyelerini doğru bir şekilde görmesini sağlayarak daha akıllı ikmal yapılmasını mümkün kılar ve israfı azaltır. Google Cloud gibi şirketler, veri kalitesinin çok önemli olduğu durumlarda analitik çözümler sunar.

Veri Temizleme ve İlgili Kavramlar

Veri temizlemeyi ilgili veri hazırlama adımlarından ayırmak önemlidir:

  • Veri Ön İşleme: Bu, veri temizlemeyi kapsayan daha geniş bir terimdir, ancak normalleştirme (sayısal özellikleri ölçeklendirme), kategorik değişkenleri kodlama ve özellik çıkarma gibi ML modelleri için veri hazırlamaya yönelik diğer dönüşümleri de içerir. Temizleme hataları düzeltmeye odaklanırken, ön işleme algoritmalar için verileri biçimlendirmeye odaklanır. Daha fazla ayrıntı için açıklamalı verilerin ön işlenmesine ilişkin Ultralytics kılavuzuna bakın.
  • Veri Etiketleme: Bu, denetimli öğrenme için görüntülerdeki nesnelerin etrafına sınırlayıcı kutular çizmek gibi ham verilere bilgilendirici etiketler veya ek açıklamalar (etiketler) ekleme işlemidir. Veri temizleme, kalite kontrolleri sırasında belirlenen yanlış etiketlerin düzeltilmesini içerebilir, ancak ilk etiketleme eyleminden farklıdır. Veri Toplama ve Ek Açıklama kılavuzu etiketleme hakkında bilgi vermektedir.
  • Veri Büyütme: Bu teknik, mevcut verilerin değiştirilmiş kopyalarını oluşturarak (örneğin, görüntüleri döndürerek, parlaklığı değiştirerek) eğitim veri kümesinin boyutunu ve çeşitliliğini yapay olarak artırır. Veri artırma model genellemesini ve sağlamlığını geliştirmeyi amaçlarken, veri temizleme orijinal verilerin kalitesini artırmaya odaklanır. The Ultimate Guide to Data Augmentation'da daha fazla bilgi edinin.

Veri temizleme, temel verilerin sağlam olmasını sağlayarak yapay zeka sistemlerinin güvenilirliğini ve performansını önemli ölçüde artıran temel ve genellikle yinelemeli bir uygulamadır. Pandas kütüphanesi gibi araçlar, Python tabanlı makine öğrenimi iş akışlarında veri manipülasyonu ve temizleme görevleri için yaygın olarak kullanılır. Özellikle karmaşık bilgisayarla görme (CV) görevleri veya COCO veya ImageNet gibi büyük ölçekli kıyaslama veri kümeleriyle çalışırken, titiz temizlik yoluyla veri kalitesinin sağlanması, güvenilir yapay zeka geliştirmek için hayati önem taşır. Ultralytics HUB gibi platformlar, proje yaşam döngüsü boyunca yüksek kaliteli veri kümelerinin yönetilmesine ve korunmasına yardımcı olabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve büyüyün

Şimdi katılın
Panoya kopyalanan bağlantı