Veri Ön İşleme
Makine öğrenimi için ana veri ön işleme. Model doğruluğunu ve performansını artırmak için temizleme, ölçekleme ve kodlama gibi teknikleri öğrenin.
Veri ön işleme, makine öğrenimi hattında ham verinin bir veriye dönüştürüldüğü kritik ilk aşamadır.
algoritmalar için temiz, anlaşılabilir bir format. Gerçek dünya verileri genellikle eksik, tutarsız ve eksikliklerle doludur.
hatalar veya aykırı değerler. Bir model bu tür kusurlu girdiler üzerinde eğitilirse, ortaya çıkan
Tahmine dayalı modelleme muhtemelen
Yanlış sonuçlar, genellikle "çöp içeri, çöp dışarı" olarak adlandırılan bir olgudur. Sistematik olarak
Bu sorunları ele alan ön işleme, aşağıdakileri sağlar
eğitim verilerinin yüksek kalitede olması çok önemlidir
Optimum model doğruluğu ve kararlılığı elde etmek için.
Ön İşlemede Temel Teknikler
Ön işlemede yer alan belirli adımlar veri türüne (metin, görüntü veya tablo verileri) göre değişir, ancak
genellikle birkaç temel görevi içerir.
-
Veri Temizleme: Bu şunları içerir
eksik değerlerin ele alınması, gürültülü verilerin düzeltilmesi ve tutarsızlıkların giderilmesi. Teknikler aşağıdakileri içerebilir
gibi araçlar kullanarak eksik kayıtları istatistiksel yollarla veya bozuk kayıtları tamamen kaldırarak
Pandas.
-
Normalleştirme ve Ölçeklendirme:
Algoritmalar, özellikler çok farklı ölçeklere sahip olduğunda (örneğin, yaş ve gelir) genellikle kötü performans gösterir. Normalleştirme
sayısal sütunları 0'dan 1'e gibi ortak bir ölçeğe ayarlayarak daha büyük değerlerin
gradyan iniş süreci. Daha fazlasını okuyabilirsiniz
ölçeklendirme stratejileri hakkında
Scikit-learn belgeleri.
-
Kodlama: Makine öğrenimi modelleri tipik olarak sayısal girdi gerektirir. Kategorik veriler (örneğin
"Kırmızı," "Yeşil," "Mavi") gibi yöntemler kullanılarak sayılara dönüştürülmelidir.
tek vuruşlu kodlama veya etiket
kodlama.
-
Boyut Azaltma: Gibi teknikler
Temel Bileşen Analizi (PCA)
Giriş değişkenlerinin sayısını azaltarak, yalnızca en önemli bilgileri koruyarak
aşırı uyum ve eğitimi hızlandırma.
-
Görüntü Yeniden Boyutlandırma: İçinde
bilgisayarla görme (CV), görüntüler genellikle
giriş katmanıyla eşleşmesi için sabit bir boyuta (örn. 640x640 piksel) yeniden boyutlandırılmıştır.
Evrişimsel Sinir Ağı (CNN).
Gerçek Dünya Uygulamaları
Veri ön işleme, güvenilir yapay zeka sistemleri için backbone görevi görerek tüm sektörlerde yaygın olarak kullanılmaktadır.
-
Tıbbi Görüntü Analizi:
MR veya BT taramalarında anomalileri tespit ederken, ön işleme hayati önem taşır. Ham taramalar kontrast ve çözünürlük açısından farklılık gösterir
kullanılan makineye bağlı olarak değişir. Ön işleme, piksel yoğunluğunu normalleştirir ve görüntüleri yeniden boyutlandırarak
YZ ajanı aşağıdakilerden ziyade patolojik özelliklere odaklanır
teknik eserler. Örneğin, araştırmacıların nasıl
tümör tespiti için YOLO11 kullanarak
tanısal hassasiyeti artırmak için.
-
Finansal Dolandırıcılık Tespiti: Bankacılık sektöründe işlem kayıtları genellikle dağınık ve dengesizdir.
Ön işleme, zaman damgası hatalarının temizlenmesini ve işlem tutarlarının normalleştirilmesini içerir. En önemlisi, şunları da içerir
veri setinin dengelenmesi -dolandırıcılık nadir olduğundan- örnekleme teknikleri kullanılarak
anomali tespit modeli etkin bir şekilde tanımlar
şüpheli faaliyetler. IBM, veri hazırlamanın nasıl yapıldığına ilişkin içgörüler sunuyor
bu iş açısından kritik analitikleri destekler.
Ultralytics YOLO ile Ön İşleme
Modern çerçeveler genellikle ön işleme hattının önemli bölümlerini otomatikleştirir. Kullanırken
YOLO11görüntü yeniden boyutlandırma, piksel değerlerini ölçeklendirme ve etiketleri biçimlendirme gibi görevler ele alınır
eğitim süreci sırasında dahili olarak. Bu, geliştiricilerin aşağıdakiler gibi daha üst düzey görevlere odaklanmasına olanak tanır
model değerlendirmesi ve dağıtımı.
Aşağıdaki örnekte YOLO11 'in görüntü yeniden boyutlandırmayı otomatik olarak nasıl gerçekleştirdiği gösterilmektedir imgsz argüman
eğitim sırasında:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset.
# The 'imgsz' argument triggers automatic preprocessing to resize inputs to 640px.
model.train(data="coco8.yaml", epochs=5, imgsz=640)
İlgili Kavramların Farklılaştırılması
Veri ön işlemeyi makine öğrenimi iş akışındaki benzer terimlerden ayırmak faydalı olacaktır:
-
Veri Artırmaya karşı: Bir yandan
önişleme format verilerini kullanılabilir hale getirirken (örneğin, yeniden boyutlandırma), büyütme
Veri seti çeşitliliğini artırmak için mevcut verilerin yeni sentetik varyasyonları (örn. döndürme, çevirme) ve
sağlamlık. Daha fazla bilgi için
veri artırma rehberi.
-
Özellik Mühendisliğine karşı:
Ön işleme, ham verilerin temizlenmesi ve biçimlendirilmesine odaklanır. Özellik mühendisliği, aşağıdakileri içeren daha yaratıcı bir adımdır
Bu verilerden yeni, anlamlı değişkenler türetmek (örneğin, "metrekare başına fiyatı"
"fiyat" ve "alan") iyileştirmek için
model performansı.
-
vs. Veri Etiketleme: Etiketleme
manuel veya otomatik veri açıklama süreci (çizim gibi)
sınırlayıcı kutular) temel gerçeği oluşturmak için.
Ön işleme, bu etiketli görüntüleri ve ek açıklamaları
sinir ağı.
Mühendisler, veri ön işleme konusunda uzmanlaşarak başarılı bir veri işleme süreci için zemin hazırlarlar.
Yapay zeka projeleri, sofistike
gibi modeller YOLO11 ve yaklaşmakta olan YOLO26 tam potansiyelleriyle performans gösterebilir. İçin
veri kümelerini yönetmek ve bu iş akışlarını otomatikleştirmek için
Ultralytics Platformu, iş süreçlerini kolaylaştırmak için birleşik bir ortam sağlar.
Ham verilerden konuşlandırılmış modele yolculuk.