Veri Temizleme
Yapay zeka ve ML projeleri için ana veri temizliği. Hataları düzeltmek, veri kalitesini artırmak ve model performansını etkili bir şekilde yükseltmek için teknikler öğrenin!
Veri temizleme, bozuk, hatalı veya ilgisiz kayıtların tespit edilmesi ve düzeltilmesine yönelik kritik bir süreçtir.
kalitesini artırmak için bir veri kümesi. Bu alemde
makine öğrenimi (ML), bu adım
temeldir çünkü herhangi bir
yapay zeka (AI) modeli
öğrendiği bilginin bütünlüğüyle doğrudan bağlantılıdır. Atasözünü takip ederek "çöp içeri, çöp
"veri temizleme, aşağıdaki gibi gelişmiş mimarilerin
Ultralytics YOLO11 tutarlı ve hatasız bir şekilde eğitilir
yüksek doğruluğa ulaşmak için gerekli olan veriler ve
gerçek dünya ortamlarında sağlam genelleme.
Temel Veri Temizleme Teknikleri
Ham bilginin yüksek kaliteye dönüştürülmesi
eğitim verileri çeşitli sistematik görevleri içerir.
Bu teknikler, aşağıdakileri olumsuz etkileyebilecek belirli hataları ele alır
model eğitimi.
-
Eksik Değerlerin İşlenmesi: Eksik veriler sonuçları çarpıtabilir. Uygulayıcılar genellikle şunları kullanır
kullanarak boşlukları doldurmak için imputasyon teknikleri
Ortalama veya medyan gibi istatistiksel ölçütler ya da eksik kayıtları tamamen kaldırabilirler.
-
Yinelemeleri Kaldırma: Mükerrer girişler aşağıdakilere yol açabilir
yapay zekada önyargı, yapay zekanın önemini yapay olarak şişirerek
belirli veri noktaları. gibi araçları kullanarak bu fazlalıkları ortadan kaldırmak
pandas kütüphanesi
dengeli bir veri seti sağlar.
-
Aykırı Değerleri Yönetme: Normdan önemli ölçüde sapan veri noktaları aykırı değerler olarak bilinir.
Bazıları değerli anomalileri temsil ederken, diğerleri düzeltilmesi veya kaldırılması gereken hatalardır. için Teknikler
anormallik tespiti, bunların belirlenmesine yardımcı olur
düzensizlikler.
-
Formatların Standartlaştırılması: Tutarsız formatlar (örneğin, "jpg" ve "JPEG "in karıştırılması veya
farklı tarih stilleri) algoritmaları karıştırabilir. Birleştirilmiş bir
veri̇ kali̇te standardi
tüm verilerin tutarlı bir yapı izlemesini sağlar.
-
Yapısal Hataların Düzeltilmesi: Bu, yazım hatalarının, yanlış etiketlenmiş sınıfların veya tutarsızlıkların düzeltilmesini içerir
model tarafından ayrı kategoriler olarak ele alınabilecek büyük harf kullanımı.
Yapay Zekada Gerçek Dünya Uygulamaları
Veri temizleme, hassasiyetin çok önemli olduğu çeşitli sektörlerde vazgeçilmezdir.
-
Sağlık Teşhis Cihazları: İçinde
Sağlık hizmetlerinde yapay zeka, modeller patolojileri detect ediyor
tıbbi görüntüler. Örneğin, bir sistemi eğitirken
Beyin Tümörü veri seti, veri temizliği içerir
bulanık taramaların kaldırılması, hasta meta verilerinin anonim ve doğru olmasının sağlanması ve tümör ek açıklamalarının doğrulanması
kesindir. Bu titizlik, modelin yanlış pozitifleri öğrenmesini önler ve bu da hasta güvenliği açısından kritik önem taşır.
Ulusal Biyomedikal Görüntüleme ve Biyomühendislik Enstitüsü tarafından kaydedilmiştir.
-
Akıllı Tarım: İçin
Tarımda yapay zeka, otomatik sistemler izleme
drone görüntülerini kullanarak mahsul sağlığı. Veri temizleme, bulut örtüsü veya sensör gürültüsü nedeniyle gizlenen görüntüleri filtreleyerek yardımcı olur
ve GPS koordinat hatalarının düzeltilmesi. Bu, aşağıdakileri sağlar
mahsul sağliğinin i̇zlenmesi̇
sistemleri çiftçilere sulama ve haşere kontrolü için güvenilir bilgiler sağlar.
Python Örneği: Görüntü Bütünlüğünü Doğrulama
Yaygın bir veri temizleme görevi
bilgisayarla görme (CV) tanımlıyor ve kaldırıyor
eğitimden önce bozuk görüntü dosyaları. Aşağıdaki kod parçacığı, standart görüntü dosyalarının nasıl doğrulanacağını göstermektedir
Python kütüphanesi.
from pathlib import Path
from PIL import Image
# Define the directory containing your dataset images
dataset_path = Path("./data/images")
# Iterate through files and verify they can be opened
for img_file in dataset_path.glob("*.jpg"):
try:
# Attempt to open and verify the image file
with Image.open(img_file) as img:
img.verify()
except (OSError, SyntaxError):
print(f"Corrupt file found and removed: {img_file}")
img_file.unlink() # Deletes the corrupt file
Veri Temizleme ve İlgili Kavramlar
Veri temizliğini diğer veri hazırlama adımlarından ayırmak önemlidir.
-
Veri Ön İşleme: Bu, temizliği içeren daha geniş bir terimdir, ancak aynı zamanda model için verilerin biçimlendirilmesini de kapsar, örneğin
normalleştirme (piksel değerlerini ölçekleme) ve yeniden boyutlandırma
görüntüler. Temizleme hataları düzeltirken, ön işleme veri formatını optimize eder.
-
Veri Etiketleme: Bu işlem, anlamlı etiketlerin eklenmesini veya
verilere sınırlayıcı kutular. Veri temizliği şunları içerebilir
Yanlış etiketlerin düzeltilmesi, ancak etiketlemenin kendisi, genellikle temel gerçek ek açıklamaları oluşturma eylemidir.
yakında çıkacak olan Ultralytics Platform gibi araçlarla desteklenmektedir.
-
Veri Büyütme: Orijinal verileri iyileştiren temizlemenin aksine, artırma, veri kümesini yapay olarak genişletir.
iyileştirmek için değiştirilmiş kopyalar (örneğin, görüntüleri çevirme veya döndürme)
model genellemesi.
Veri kümenizin temiz olduğundan emin olmak, veri işleme sürecinde hayati bir adımdır.
Odak noktasının değiştiği Veri Merkezli YZ yaklaşımı
Modellerde ince ayar yapmaktan öğrendikleri verileri iyileştirmeye kadar. Temiz bir veri seti, veri analizi sonuçlarını artırmanın en etkili yoludur.
gibi son teknoloji modellerin performansı YOLO11 ve
gelecek YOLO26.