AI modelinin doğruluğunu artırmak için ana veri temizlemeyi öğrenin. Hataları giderme, eksik değerleri işleme ve Ultralytics için temiz veri kümeleri hazırlama tekniklerini öğrenin.
Veri temizleme, bir kayıt kümesinden, tablodan veya veritabanından bozuk, yanlış veya alakasız kayıtları tespit etme ve düzeltme (veya kaldırma) işleminin kritik bir parçasıdır. Yapay zeka (AI) ve makine öğrenimi (ML) alanında, bu adım genellikle iş akışının en zaman alıcı ancak en önemli parçası olarak kabul edilir. YOLO26 gibi bir modelin nesneleri etkili bir şekilde tanımayı öğrenebilmesi için, eğitim verilerindeki hatalar giderilmeli ve kalitesiz girdilerin güvenilmez çıktılara yol açtığı "Garbage In, Garbage Out" (Giriş Çöp, Çıkış Çöp) fenomeni önlenmelidir.
Yüksek performanslı bilgisayar görme modelleri, kullandıkları veri kümelerinin kalitesine büyük ölçüde bağlıdır. Bir veri kümesi yanlış etiketlenmiş görüntüler, yinelenenler veya bozuk dosyalar içeriyorsa, model kalıpları genelleştirmekte zorlanır ve bu da aşırı uyum veya düşük çıkarım doğruluğuna yol açar. Etkili veri temizleme, tahmin modellerinin güvenilirliğini artırır ve algoritmanın gürültüden ziyade geçerli sinyallerden öğrenmesini sağlar.
Uygulayıcılar, aşağıdaki gibi araçları kullanarak veri kümelerini iyileştirmek için çeşitli stratejiler kullanırlar Pandas gibi araçları kullanarak veri kümelerini iyileştirmek için çeşitli stratejiler kullanırlar.
Veri temizleme, yapay zekanın kullanıldığı çeşitli sektörlerde çok önemlidir.
Sıklıkla birbirinin yerine kullanılmasına rağmen, veri temizleme veri ön işleme işleminden farklıdır. Veri temizleme, hataları düzeltmeye ve "kötü" verileri kaldırmaya odaklanır. Buna karşılık, ön işleme, temiz verileri modele uygun bir biçime dönüştürmeyi içerir; örneğin görüntü boyutlandırma, normalleştirme veya çeşitliliği artırmak için veri artırma uygulaması.
Ultralytics bulunanlar gibi modern iş akışları, eğitim başlamadan önce bozuk görüntüleri veya etiket tutarsızlıklarını tespit etmek için otomatik kontroller entegre eder. Aşağıda, YOLO26 gibi bir modele veri beslemeden önce yaygın olarak kullanılan bir adım olan standart Pillow kütüphanesini kullanarak bozuk görüntü dosyalarını nasıl kontrol edip tespit edeceğinizi gösteren basit Python bulunmaktadır. YOLO26.
from pathlib import Path
from PIL import Image
def verify_images(dataset_path):
"""Iterates through a directory to identify corrupt images."""
for img_path in Path(dataset_path).glob("*.jpg"):
try:
with Image.open(img_path) as img:
img.verify() # Checks file integrity
except (OSError, SyntaxError):
print(f"Corrupt file found: {img_path}")
# Run verification on your dataset
verify_images("./coco8/images/train")