Veri Temizleme
Yapay zeka ve ML projeleri için ana veri temizliği. Hataları düzeltmek, veri kalitesini artırmak ve model performansını etkili bir şekilde yükseltmek için teknikler öğrenin!
Veri temizleme, bir veri kümesindeki bozuk, yanlış, eksik veya tutarsız verileri tanımlama ve düzeltme veya kaldırma işlemidir. Herhangi bir makine öğrenimi (ML) iş akışında kritik bir ilk adımdır, çünkü eğitim verilerinin kalitesi, ortaya çıkan modelin performansını ve güvenilirliğini doğrudan belirler. "Çöp girerse, çöp çıkar" ilkesini izleyerek, veri temizleme, Ultralytics YOLO gibi modellerin doğru ve tutarlı bilgiler üzerinde eğitilmesini sağlayarak daha iyi doğruluk ve daha güvenilir tahminlere yol açar. Uygun temizleme olmadan, verilerdeki temel sorunlar çarpık sonuçlara ve zayıf model genellemesine yol açabilir.
Temel Veri Temizleme Görevleri
Veri temizleme süreci, farklı türdeki veri kalitesi sorunlarını çözmek için tasarlanmış çeşitli farklı görevleri içerir. Bu görevler genellikle yinelemelidir ve alana özgü bilgi gerektirebilir.
- Eksik Değerleri İşleme: Veri kümeleri genellikle eksik girdiler içerir; bu eksik girdiler, eksik kayıtların kaldırılmasıyla veya ortalama, medyan gibi istatistiksel yöntemler veya daha gelişmiş tahmini modeller kullanılarak eksik değerlerin impute (doldurulması) edilmesiyle giderilebilir. Eksik verilerin işlenmesi ile ilgili bir kılavuz daha fazla bilgi sağlayabilir.
- Yanlış Verileri Düzeltme: Bu, yazım hatalarını, ölçüm tutarsızlıklarını (örneğin, lbs - kg) ve olgusal olarak yanlış bilgileri düzeltmeyi içerir. Veri doğrulama kuralları genellikle bu hataları işaretlemek için uygulanır.
- Yinelenenleri Kaldırma: Yinelenen kayıtlar, belirli veri noktalarına aşırı ağırlık vererek bir modele yanlılık katabilir. Bu yedekli girişleri belirlemek ve kaldırmak standart bir adımdır.
- Aykırı Değerleri Yönetme: Aykırı değerler, diğer gözlemlerden önemli ölçüde sapan veri noktalarıdır. Nedenlerine bağlı olarak, model eğitimi sürecini olumsuz etkilemelerini önlemek için kaldırılabilir, düzeltilebilir veya dönüştürülebilirler. Bu amaçla aykırı değer tespit teknikleri yaygın olarak kullanılır.
- Verileri Standartlaştırma: Bu, verilerin tutarlı bir formata uygun olmasını sağlamayı içerir. Örnekler arasında tarih formatlarını, metin büyük/küçük harf kullanımını (örneğin, tüm metni küçük harfe dönüştürme) ve birim dönüştürmelerini standartlaştırmak yer alır. Başarı için tutarlı veri kalitesi standartları çok önemlidir.
Gerçek Dünya Yapay Zeka/Makine Öğrenimi Uygulamaları
- Tıbbi Görüntü Analizi: Bir nesne tespiti modelini Beyin Tümörü veri kümesi gibi bir veri kümesi üzerinde eğitirken, veri temizliği hayati önem taşır. Bu süreç, bozuk veya düşük kaliteli görüntü dosyalarının kaldırılmasını, tüm görüntülerin tutarlı bir çözünürlük ve biçimde standartlaştırılmasını ve hasta etiketlerinin ve açıklamalarının doğru olduğunun doğrulanmasını içerir. Bu, modelin net, güvenilir bilgilerden öğrenmesini sağlar ve bu da Sağlık Hizmetlerinde Yapay Zeka'da güvenilir teşhis araçları geliştirmek için gereklidir. Ulusal Biyomedikal Görüntüleme ve Biyo Mühendislik Enstitüsü (NIBIB), tıbbi araştırmalarda kaliteli verilerin önemini vurgulamaktadır.
- Perakende Envanter Yönetimi için Yapay Zeka: Yapay zeka odaklı perakendede, bilgisayarlı görü modelleri kamera görüntülerini kullanarak raf stokunu izler. Bulanık görüntüleri filtrelemek, ürünlerin müşteriler tarafından gizlendiği kareleri kaldırmak ve birden fazla kamera açısından ürün sayımlarını tekilleştirmek için veri temizleme gereklidir. Bu sorunları düzeltmek, envanter sisteminin stok seviyelerinin doğru bir görünümüne sahip olmasını sağlar, daha akıllı ikmal sağlar ve israfı azaltır. Google Cloud gibi şirketler, veri kalitesinin çok önemli olduğu analiz çözümleri sunar.
Veri Temizleme ve İlgili Kavramlar
Veri temizliğini ilgili veri hazırlama adımlarından ayırmak önemlidir:
- Veri Ön İşleme (Data Preprocessing): Bu, veri temizlemeyi kapsayan daha geniş bir terimdir, ancak aynı zamanda verileri ML modelleri için hazırlamak üzere normalleştirme (sayısal özellikleri ölçeklendirme), kategorik değişkenleri kodlama ve özellik çıkarımı gibi diğer dönüşümleri de içerir. Temizleme hataları düzeltmeye odaklanırken, ön işleme verileri algoritmalar için biçimlendirmeye odaklanır. Daha fazla ayrıntı için Ultralytics'in açıklanmış verileri ön işleme kılavuzuna bakın.
- Veri Etiketleme (Data Labeling): Bu, denetimli öğrenme için görüntülerdeki nesnelerin etrafına sınırlayıcı kutular çizmek gibi ham verilere bilgilendirici etiketler veya açıklamalar (etiketler) ekleme işlemidir. Veri temizleme, kalite kontrolleri sırasında tanımlanan yanlış etiketleri düzeltmeyi içerebilir, ancak etiketlemenin ilk eyleminden farklıdır. Veri Toplama ve Açıklama kılavuzu etiketleme hakkında bilgiler sağlar.
- Veri Artırımı (Data Augmentation): Bu teknik, mevcut verilerin değiştirilmiş kopyalarını (örneğin, görüntüleri döndürme, parlaklığı değiştirme) oluşturarak eğitim veri kümesinin boyutunu ve çeşitliliğini yapay olarak artırır. Veri artırma, modelin genellemesini ve sağlamlığını iyileştirmeyi amaçlarken, veri temizleme orijinal verinin kalitesini iyileştirmeye odaklanır. Veri Artırmaya İlişkin Nihai Kılavuz'da daha fazla bilgi edinin.
Veri temizleme, temel verilerin sağlam olmasını sağlayarak yapay zeka sistemlerinin güvenilirliğini ve performansını önemli ölçüde artıran temel, genellikle yinelemeli bir uygulamadır. Pandas kütüphanesi gibi araçlar, Python tabanlı ML iş akışlarında veri manipülasyonu ve temizleme görevleri için yaygın olarak kullanılır. Özellikle karmaşık bilgisayar görüşü (CV) görevleri veya COCO veya ImageNet gibi büyük ölçekli benchmark veri kümeleriyle çalışırken, titiz temizleme yoluyla veri kalitesini sağlamak, güvenilir yapay zeka geliştirmek için hayati öneme sahiptir. Ultralytics HUB gibi platformlar, proje yaşam döngüsü boyunca yüksek kaliteli veri kümelerini yönetmeye ve sürdürmeye yardımcı olabilir.