Sözlük

Veri Temizleme

Yapay zeka ve ML projeleri için ana veri temizliği. Hataları düzeltmek, veri kalitesini artırmak ve model performansını etkili bir şekilde yükseltmek için teknikler öğrenin!

Veri temizleme, bozuk, hatalı veya ilgisiz kayıtların tespit edilmesi ve düzeltilmesine yönelik kritik bir süreçtir. kalitesini artırmak için bir veri kümesi. Bu alemde makine öğrenimi (ML), bu adım temeldir çünkü herhangi bir yapay zeka (AI) modeli öğrendiği bilginin bütünlüğüyle doğrudan bağlantılıdır. Atasözünü takip ederek "çöp içeri, çöp "veri temizleme, aşağıdaki gibi gelişmiş mimarilerin Ultralytics YOLO11 tutarlı ve hatasız bir şekilde eğitilir yüksek doğruluğa ulaşmak için gerekli olan veriler ve gerçek dünya ortamlarında sağlam genelleme.

Temel Veri Temizleme Teknikleri

Ham bilginin yüksek kaliteye dönüştürülmesi eğitim verileri çeşitli sistematik görevleri içerir. Bu teknikler, aşağıdakileri olumsuz etkileyebilecek belirli hataları ele alır model eğitimi.

Eksik Değerlerin İşlenmesi: Eksik veriler sonuçları çarpıtabilir. Uygulayıcılar genellikle şunları kullanır kullanarak boşlukları doldurmak için imputasyon teknikleri Ortalama veya medyan gibi istatistiksel ölçütler ya da eksik kayıtları tamamen kaldırabilirler.
Yinelemeleri Kaldırma: Mükerrer girişler aşağıdakilere yol açabilir yapay zekada önyargı, yapay zekanın önemini yapay olarak şişirerek belirli veri noktaları. gibi araçları kullanarak bu fazlalıkları ortadan kaldırmak pandas kütüphanesi dengeli bir veri seti sağlar.
Aykırı Değerleri Yönetme: Normdan önemli ölçüde sapan veri noktaları aykırı değerler olarak bilinir. Bazıları değerli anomalileri temsil ederken, diğerleri düzeltilmesi veya kaldırılması gereken hatalardır. için Teknikler anormallik tespiti, bunların belirlenmesine yardımcı olur düzensizlikler.
Formatların Standartlaştırılması: Tutarsız formatlar (örneğin, "jpg" ve "JPEG "in karıştırılması veya farklı tarih stilleri) algoritmaları karıştırabilir. Birleştirilmiş bir veri̇ kali̇te standardi tüm verilerin tutarlı bir yapı izlemesini sağlar.
Yapısal Hataların Düzeltilmesi: Bu, yazım hatalarının, yanlış etiketlenmiş sınıfların veya tutarsızlıkların düzeltilmesini içerir model tarafından ayrı kategoriler olarak ele alınabilecek büyük harf kullanımı.

Yapay Zekada Gerçek Dünya Uygulamaları

Veri temizleme, hassasiyetin çok önemli olduğu çeşitli sektörlerde vazgeçilmezdir.

Sağlık Teşhis Cihazları: İçinde Sağlık hizmetlerinde yapay zeka, modeller patolojileri detect ediyor tıbbi görüntüler. Örneğin, bir sistemi eğitirken Beyin Tümörü veri seti, veri temizliği içerir bulanık taramaların kaldırılması, hasta meta verilerinin anonim ve doğru olmasının sağlanması ve tümör ek açıklamalarının doğrulanması kesindir. Bu titizlik, modelin yanlış pozitifleri öğrenmesini önler ve bu da hasta güvenliği açısından kritik önem taşır. Ulusal Biyomedikal Görüntüleme ve Biyomühendislik Enstitüsü tarafından kaydedilmiştir.
Akıllı Tarım: İçin Tarımda yapay zeka, otomatik sistemler izleme drone görüntülerini kullanarak mahsul sağlığı. Veri temizleme, bulut örtüsü veya sensör gürültüsü nedeniyle gizlenen görüntüleri filtreleyerek yardımcı olur ve GPS koordinat hatalarının düzeltilmesi. Bu, aşağıdakileri sağlar mahsul sağliğinin i̇zlenmesi̇ sistemleri çiftçilere sulama ve haşere kontrolü için güvenilir bilgiler sağlar.

Python Örneği: Görüntü Bütünlüğünü Doğrulama

Yaygın bir veri temizleme görevi bilgisayarla görme (CV) tanımlıyor ve kaldırıyor eğitimden önce bozuk görüntü dosyaları. Aşağıdaki kod parçacığı, standart görüntü dosyalarının nasıl doğrulanacağını göstermektedir Python kütüphanesi.

from pathlib import Path

from PIL import Image

# Define the directory containing your dataset images
dataset_path = Path("./data/images")

# Iterate through files and verify they can be opened
for img_file in dataset_path.glob("*.jpg"):
    try:
        # Attempt to open and verify the image file
        with Image.open(img_file) as img:
            img.verify()
    except (OSError, SyntaxError):
        print(f"Corrupt file found and removed: {img_file}")
        img_file.unlink()  # Deletes the corrupt file

Veri Temizleme ve İlgili Kavramlar

Veri temizliğini diğer veri hazırlama adımlarından ayırmak önemlidir.

Veri Ön İşleme: Bu, temizliği içeren daha geniş bir terimdir, ancak aynı zamanda model için verilerin biçimlendirilmesini de kapsar, örneğin normalleştirme (piksel değerlerini ölçekleme) ve yeniden boyutlandırma görüntüler. Temizleme hataları düzeltirken, ön işleme veri formatını optimize eder.
Veri Etiketleme: Bu işlem, anlamlı etiketlerin eklenmesini veya verilere sınırlayıcı kutular. Veri temizliği şunları içerebilir Yanlış etiketlerin düzeltilmesi, ancak etiketlemenin kendisi, genellikle temel gerçek ek açıklamaları oluşturma eylemidir. yakında çıkacak olan Ultralytics Platform gibi araçlarla desteklenmektedir.
Veri Büyütme: Orijinal verileri iyileştiren temizlemenin aksine, artırma, veri kümesini yapay olarak genişletir. iyileştirmek için değiştirilmiş kopyalar (örneğin, görüntüleri çevirme veya döndürme) model genellemesi.

Veri kümenizin temiz olduğundan emin olmak, veri işleme sürecinde hayati bir adımdır. Odak noktasının değiştiği Veri Merkezli YZ yaklaşımı Modellerde ince ayar yapmaktan öğrendikleri verileri iyileştirmeye kadar. Temiz bir veri seti, veri analizi sonuçlarını artırmanın en etkili yoludur. gibi son teknoloji modellerin performansı YOLO11 ve gelecek YOLO26.

Veri Temizleme

Sektörler arası iş akışlarını kolaylaştırmak için Ultralytics YOLO modellerini eğitin

Yeniliklerinizi güçlendirmek için esnek kurumsal lisanslama çözümü

Ultralytics YOLO ile yapay zeka modellerini saniyeler içinde eğitin

Temel Veri Temizleme Teknikleri

Yapay Zekada Gerçek Dünya Uygulamaları

Python Örneği: Görüntü Bütünlüğünü Doğrulama

Veri Temizleme ve İlgili Kavramlar

Bu kategoride daha fazla okuyun

Gelecekteki nesne algılama trendleri: Dikkat edilmesi gereken 7 önemli nokta

Ultralytics YOLO modelleri ile araç yeniden tanımlamayı geliştirme

Ultralytics YOLO modelleri ile çarpışma tahmininin iyileştirilmesi

Ultralytics topluluğuna katılın