Veri Ön İşleme
Makine öğrenimi için ana veri ön işleme. Model doğruluğunu ve performansını artırmak için temizleme, ölçekleme ve kodlama gibi teknikleri öğrenin.
Veri ön işleme, makine öğrenimi (ML) işlem hattında, ham veriyi eğitime ve model oluşturmaya uygun hale getirmek için temizlemeyi, dönüştürmeyi ve düzenlemeyi içeren çok önemli bir adımdır. Gerçek dünyadan alınan ham veriler genellikle eksiktir, tutarsızdır ve hatalar içerebilir. Ön işleme, bu dağınık verileri temiz, iyi yapılandırılmış bir biçime dönüştürür ve bu da bir modelin etkili bir şekilde öğrenmesi için gereklidir. Bir modelin tahminlerinin kalitesi büyük ölçüde üzerinde eğitildiği verilerin kalitesine bağlıdır, bu da veri ön işlemeyi yapay zeka sistemlerinde yüksek doğruluk ve güvenilir performans elde etmek için temel bir uygulama haline getirir.
Veri Ön İşlemedeki Temel Görevler
Veri ön işleme, verileri hazırlamak için çeşitli teknikleri kapsayan geniş bir terimdir. Belirli adımlar veri kümesine ve makine öğrenimi görevine bağlıdır, ancak ortak görevler şunları içerir:
- Veri Temizleme: Bu, bir veri kümesindeki hataları, tutarsızlıkları ve eksik değerleri belirleme ve düzeltme veya kaldırma sürecidir. Bu, eksik verilerin istatistiksel yöntemler kullanılarak doldurulmasını veya mükerrer girişlerin kaldırılmasını içerebilir. Temiz veri, güvenilir bir modelin temel taşıdır.
- Veri Dönüşümü: Bu, verilerin ölçeğini veya dağılımını değiştirmeyi içerir. Yaygın bir teknik şudur normalleştirmesayısal özellikleri standart bir aralığa (örneğin, 0 ila 1) ölçeklendirerek daha büyük ölçekli özelliklerin öğrenme sürecine hakim olmasını önler. Scikit-learn ön işleme belgelerinden çeşitli ölçeklendirme yöntemleri hakkında daha fazla bilgi edinebilirsiniz.
- Özellik Mühendisliği: Bu, model performansını artırmak için mevcut özelliklerden yeni özellikler oluşturmaya yönelik yaratıcı bir süreçtir. Bu, özellikleri birleştirmeyi, ayrıştırmayı veya daha anlamlı bilgiler çıkarmak için alan bilgisini kullanmayı içerebilir. İlgili bir kavram da şudur özellik çıkarmaBu da verilerin boyutluluğunu otomatik olarak azaltır.
- Kategorik Verilerin Kodlanması: Birçok makine öğrenimi algoritması sayısal girdi gerektirir. Ön işleme genellikle kategorik verilerin (metin etiketleri gibi) tek vuruşlu kodlama gibi tekniklerle sayısal bir biçime dönüştürülmesini içerir.
- Yeniden Boyutlandırma ve Büyütme: Bilgisayarla görmede (CV) ön işleme, görüntülerin tek tip bir boyuta yeniden boyutlandırılmasını içerir. Ayrıca şu şekilde de takip edilebilir veri artırımıgörüntülerin değiştirilmiş sürümlerini oluşturarak veri kümesini yapay olarak genişletir.
Gerçek Dünya AI/ML Uygulamaları
Veri ön işleme, tüm yapay zeka alanlarında evrensel bir gerekliliktir. Uygulaması hem basit hem de karmaşık görevlerde başarı için kritik öneme sahiptir.
- Tıbbi Görüntü Analizi: Bir YOLO modelinin Beyin Tümörü veri kümesi gibi bir veri kümesinden alınan MRI taramalarındaki tümörleri tespit etmek üzere eğitilebilmesi için görüntülerin önceden işlenmesi gerekir. Bu, tarama ekipmanındaki farklılıkları hesaba katmak için piksel yoğunluğu değerlerinin normalleştirilmesini, tüm görüntülerin modelin omurgasının gerektirdiği tutarlı bir giriş boyutuna yeniden boyutlandırılmasını ve bozuk dosyaları veya yanlış etiketlenmiş örnekleri kaldırmak için veri kümesinin temizlenmesini içerir. Bu, konvolüsyonel sinir ağının (CNN) görüntülemedeki varyasyonlar yerine bir modelin gerçek patolojik özelliklerini öğrenmesini sağlar. Tümör tespiti için YOLO kullanımı hakkındaki blogumuzda bu konu hakkında daha fazla bilgi edinebilirsiniz.
- Yapay Zeka Destekli Perakende Tahmini: Perakendede müşteri talebini tahmin eden bir model için ham satış verileri genellikle eksik işlem kayıtları, tutarsız ürün adlandırmaları ve çok farklı ölçeklerde özellikler (örneğin, 'ürün fiyatı' ile 'satılan ürün sayısı') içerir. Burada ön işleme, eksik satış rakamlarının yüklenmesini, ürün adlarının standartlaştırılmasını ve sayısal özelliklerin normalleştirilmesini içerir, böylece tahmine dayalı modelleme algoritması her bir faktörün önemini etkili bir şekilde tartabilir. İş dünyası için ön işlemeye genel bir bakış bu adımları vurgular.
Veri Önişleme ve İlgili Kavramlar
Veri ön işlemeyi diğer ilgili veri yönetimi terimlerinden ayırmak faydalı olacaktır.
- Veri Temizleme: Daha önce de belirtildiği gibi veri temizleme, veri ön işlemenin bir alt kümesidir. Ön işleme, bir model için veri hazırlama sürecinin tamamı olsa da, temizleme özellikle hataları düzeltmeye, eksik değerleri ele almaya ve ham veri kümesindeki tutarsızlıkları gidermeye odaklanır.
- Veri Büyütme: Veri büyütme, eğitim verilerinin boyutunu yapay olarak artırmak için kullanılan bir tekniktir. Eğitim için veri hazırlamanın bir parçası olsa da, genellikle orijinal veri kümesinde temizleme ve yeniden boyutlandırma gibi ilk ön işleme adımları tamamlandıktan sonra uygulanır. Artırmanın amacı model genellemesini iyileştirmektir, oysa ön işleme orijinal verileri kullanılabilir hale getirmeyi amaçlar.
- Veri Analitiği: Veri analitiği, sonuç çıkarmak ve karar vermeyi desteklemek için veri kümelerinin incelenmesini içeren çok daha geniş bir alandır. Veri ön işleme, keşifsel veri analizi (EDA), modelleme ve veri görselleştirmeyi de içeren bir veri analitiği iş akışının temel ilk adımıdır.
Ultralytics HUB gibi platformlar, veri kümelerinin yönetilmesine ve verilerin hazırlanmasından model dağıtımına kadar ML yaşam döngüsünün kolaylaştırılmasına yardımcı olabilir. Açıklamalı verilerin ön işlenmesine ilişkin kılavuz, daha fazla pratik bilgi sağlar.