YOLO Vision 2025'i kaçırmayın!
25 Eylül 2025
10:00 — 18:00 BST
Hibrit etkinlik
Yolo Vision 2024
Sözlük

Veri Temizleme

Yapay zeka ve ML projeleri için ana veri temizliği. Hataları düzeltmek, veri kalitesini artırmak ve model performansını etkili bir şekilde yükseltmek için teknikler öğrenin!

Veri temizleme, bir veri kümesindeki bozuk, yanlış, eksik veya tutarsız verileri tanımlama ve düzeltme veya kaldırma işlemidir. Herhangi bir makine öğrenimi (ML) iş akışında kritik bir ilk adımdır, çünkü eğitim verilerinin kalitesi, ortaya çıkan modelin performansını ve güvenilirliğini doğrudan belirler. "Çöp girerse, çöp çıkar" ilkesini izleyerek, veri temizleme, Ultralytics YOLO gibi modellerin doğru ve tutarlı bilgiler üzerinde eğitilmesini sağlayarak daha iyi doğruluk ve daha güvenilir tahminlere yol açar. Uygun temizleme olmadan, verilerdeki temel sorunlar çarpık sonuçlara ve zayıf model genellemesine yol açabilir.

Temel Veri Temizleme Görevleri

Veri temizleme süreci, farklı türdeki veri kalitesi sorunlarını çözmek için tasarlanmış çeşitli farklı görevleri içerir. Bu görevler genellikle yinelemelidir ve alana özgü bilgi gerektirebilir.

  • Eksik Değerleri İşleme: Veri kümeleri genellikle eksik girdiler içerir; bu eksik girdiler, eksik kayıtların kaldırılmasıyla veya ortalama, medyan gibi istatistiksel yöntemler veya daha gelişmiş tahmini modeller kullanılarak eksik değerlerin impute (doldurulması) edilmesiyle giderilebilir. Eksik verilerin işlenmesi ile ilgili bir kılavuz daha fazla bilgi sağlayabilir.
  • Yanlış Verileri Düzeltme: Bu, yazım hatalarını, ölçüm tutarsızlıklarını (örneğin, lbs - kg) ve olgusal olarak yanlış bilgileri düzeltmeyi içerir. Veri doğrulama kuralları genellikle bu hataları işaretlemek için uygulanır.
  • Yinelenenleri Kaldırma: Yinelenen kayıtlar, belirli veri noktalarına aşırı ağırlık vererek bir modele yanlılık katabilir. Bu yedekli girişleri belirlemek ve kaldırmak standart bir adımdır.
  • Aykırı Değerleri Yönetme: Aykırı değerler, diğer gözlemlerden önemli ölçüde sapan veri noktalarıdır. Nedenlerine bağlı olarak, model eğitimi sürecini olumsuz etkilemelerini önlemek için kaldırılabilir, düzeltilebilir veya dönüştürülebilirler. Bu amaçla aykırı değer tespit teknikleri yaygın olarak kullanılır.
  • Verileri Standartlaştırma: Bu, verilerin tutarlı bir formata uygun olmasını sağlamayı içerir. Örnekler arasında tarih formatlarını, metin büyük/küçük harf kullanımını (örneğin, tüm metni küçük harfe dönüştürme) ve birim dönüştürmelerini standartlaştırmak yer alır. Başarı için tutarlı veri kalitesi standartları çok önemlidir.

Gerçek Dünya Yapay Zeka/Makine Öğrenimi Uygulamaları

  1. Tıbbi Görüntü Analizi: Bir nesne tespiti modelini Beyin Tümörü veri kümesi gibi bir veri kümesi üzerinde eğitirken, veri temizliği hayati önem taşır. Bu süreç, bozuk veya düşük kaliteli görüntü dosyalarının kaldırılmasını, tüm görüntülerin tutarlı bir çözünürlük ve biçimde standartlaştırılmasını ve hasta etiketlerinin ve açıklamalarının doğru olduğunun doğrulanmasını içerir. Bu, modelin net, güvenilir bilgilerden öğrenmesini sağlar ve bu da Sağlık Hizmetlerinde Yapay Zeka'da güvenilir teşhis araçları geliştirmek için gereklidir. Ulusal Biyomedikal Görüntüleme ve Biyo Mühendislik Enstitüsü (NIBIB), tıbbi araştırmalarda kaliteli verilerin önemini vurgulamaktadır.
  2. Perakende Envanter Yönetimi için Yapay Zeka: Yapay zeka odaklı perakendede, bilgisayarlı görü modelleri kamera görüntülerini kullanarak raf stokunu izler. Bulanık görüntüleri filtrelemek, ürünlerin müşteriler tarafından gizlendiği kareleri kaldırmak ve birden fazla kamera açısından ürün sayımlarını tekilleştirmek için veri temizleme gereklidir. Bu sorunları düzeltmek, envanter sisteminin stok seviyelerinin doğru bir görünümüne sahip olmasını sağlar, daha akıllı ikmal sağlar ve israfı azaltır. Google Cloud gibi şirketler, veri kalitesinin çok önemli olduğu analiz çözümleri sunar.

Veri Temizleme ve İlgili Kavramlar

Veri temizliğini ilgili veri hazırlama adımlarından ayırmak önemlidir:

Veri temizleme, temel verilerin sağlam olmasını sağlayarak yapay zeka sistemlerinin güvenilirliğini ve performansını önemli ölçüde artıran temel, genellikle yinelemeli bir uygulamadır. Pandas kütüphanesi gibi araçlar, Python tabanlı ML iş akışlarında veri manipülasyonu ve temizleme görevleri için yaygın olarak kullanılır. Özellikle karmaşık bilgisayar görüşü (CV) görevleri veya COCO veya ImageNet gibi büyük ölçekli benchmark veri kümeleriyle çalışırken, titiz temizleme yoluyla veri kalitesini sağlamak, güvenilir yapay zeka geliştirmek için hayati öneme sahiptir. Ultralytics HUB gibi platformlar, proje yaşam döngüsü boyunca yüksek kaliteli veri kümelerini yönetmeye ve sürdürmeye yardımcı olabilir.

Ultralytics topluluğuna katılın

Yapay zekanın geleceğine katılın. Küresel yenilikçilerle bağlantı kurun, işbirliği yapın ve birlikte büyüyün

Şimdi katılın
Bağlantı panoya kopyalandı