Veri Odaklı Yapay Zeka
Model performansını artırmak için veri kümesi kalitesini iyileştirme yaklaşımı olan Veri Merkezli YZ'yi keşfedin. Güçlü bir YZ için neden sadece daha iyi bir modelin değil, daha iyi verilerin de önemli olduğunu öğrenin.
Veri Merkezli Yapay Zeka, makine öğrenimi (ML) geliştirmede, yalnızca model mimarisini optimize etmeye odaklanmak yerine,
eğitim verilerinin kalitesini iyileştirmeyi vurgulayan bir felsefe ve metodolojidir. Geleneksel model merkezli
yaklaşımlarda, veri kümesi genellikle statik bir girdi olarak ele alınırken, mühendisler haftalarca hiperparametreleri ayarlamak veya
karmaşık sinir ağı yapıları tasarlamakla uğraşırlar.
Tersine, veri merkezli bir yaklaşım model kodunu sabit bir temel olarak ele alır ve mühendislik çabalarını
sistematik veri temizleme, etiketleme tutarlılığı ve
genel sistem performansını artırmak için artırma yönünde yönlendirir. Bu değişim, birçok pratik uygulama için
"çöp girerse çöp çıkar" ilkesinin yüksek doğruluk elde etmenin önündeki başlıca engel olduğunu kabul eder.
Temel Felsefe: Nicelikten Çok Nitelik
Veri Merkezli Yapay Zeka'nın temel dayanağı, daha küçük, yüksek kaliteli veri kümelerinin genellikle büyük, gürültülü veri kümelerinden daha iyi sonuçlar verdiği yönündedir.
Andrew Ng gibi bu alandaki önde gelen isimler, Andrew Ng gibi bu alandaki önde gelen isimler,
AI topluluğunun tarihsel olarak algoritmik inovasyona aşırı önem verdiğini savunarak bu değişimi desteklemiştir.
Sağlam sistemler oluşturmak için mühendisler,
aktif öğrenme süreçlerine katılmalı ve bu süreçlerde
arıtma modlarını tekrar tekrar belirleyerek veri setini iyileştirmelidir. Bu, hassas
veri etiketleme, yinelemeleri kaldırma ve modelin classify zorlandığı
sınır durumlarını ele almayı içerir.
Bu iş akışındaki temel faaliyetler şunlardır:
-
Sistematik Hata Analizi: Geliştiriciler, yalnızca
doğruluk gibi toplu metriklere güvenmek yerine,
modelin başarısız olduğu belirli örnekleri (örneğin,
hava görüntülerindeküçük nesneleri algılama) analiz eder ve
bu zayıflıkları gidermek için hedefli veriler toplar.
-
Etiket Tutarlılığı: Tüm anotatörlerin aynı yönergeleri izlemesi çok önemlidir.
Label Studio gibi araçlar, ekiplerin anotasyon kalitesini yöneterek eğitim sürecini karıştıran çelişkili sinyalleri önlemesine yardımcı olur.
-
Veri Artırma: Geliştiriciler,
veri artırma tekniklerini kullanarak
veri kümesinin çeşitliliğini yapay olarak genişletirler. Döndürme, ölçeklendirme ve renk
ayarlaması gibi dönüşümler uygulayarak, model görülmemiş ortamlara daha iyi genelleme yapmayı öğrenir.
-
Sentetik Veri Üretimi: Gerçek dünya verileri yetersiz olduğunda, ekipler
NVIDIA gibi simülasyon motorlarını kullanarak
sentetik veriler üretebilir ve veri kümesindeki boşlukları doldurarak
nadir sınıfların yeterince temsil edilmesini sağlayabilir.
Gerçek Dünya Uygulamaları
Veri merkezli bir yaklaşım benimsemek,
bilgisayar görüşünün hassasiyetinin tartışılmaz olduğu sektörlerde çok önemlidir.
-
Hassas Tarım:
Tarımda yapay zeka, sağlıklı bir mahsul ile erken aşamadaki bir hastalığı ayırt etmek için genellikle ince görsel ipuçlarına dayanır. Veri odaklı bir ekip,
çeşitli aydınlatma koşulları ve büyüme aşamalarında hastalık örneklerini özel olarak içeren
yüksek kalitelibir bilgisayar görme veri seti
oluşturmaya odaklanır. Bu,
modelin alakasız arka plan özelliklerini hastalık sınıfıyla ilişkilendirmeyi öğrenmemesini sağlar. Bu,
kısayol öğrenme olarak bilinen yaygın bir sorundur.
-
Endüstriyel Denetim:
Üretimde yapay zeka kullanıldığında, kusurlar
on bin birimde bir kez meydana gelebilir. Standart bir model eğitimi, sınıf dengesizliği nedeniyle bu nadir olayları göz ardı edebilir.
Anormallik tespit stratejileri kullanarak ve bu özel kusurların daha fazla görüntüsünü manuel olarak
kaynaklayarak veya sentezleyerek, mühendisler sistemin ISO gibi kuruluşlar tarafından tanımlanan kalite kontrol standartları için gerekli olan yüksek
geri çağırma oranlarına ulaşmasını sağlar.
.
Ultralytics ile Veri Odaklı Tekniklerin Uygulanması
Eğitim boru hattınızda doğrudan artırma gibi veri merkezli teknikler uygulayabilirsiniz. Aşağıdaki Python
kodu, YOLO26 modelini yüklemeyi ve varyasyonlara karşı sağlamlığı artırmak için agresif artırma parametreleriyle eğitmeyi
göstermektedir.
from ultralytics import YOLO
# Load a YOLO26 model (recommended for new projects)
model = YOLO("yolo26n.pt")
# Train with specific data augmentations to improve generalization
# 'degrees' adds rotation, 'mixup' blends images, and 'copy_paste' adds object instances
results = model.train(
data="coco8.yaml",
epochs=10,
degrees=15.0, # Random rotation up to +/- 15 degrees
mixup=0.1, # Apply MixUp augmentation with 10% probability
copy_paste=0.1, # Use Copy-Paste augmentation
)
İlgili Kavramları Ayırt Etme
Veri odaklı yapay zekayı anlamak için, makine öğrenimi ekosistemindeki benzer terimlerden ayırt etmek gerekir.
-
Model Merkezli Yapay Zeka: Bu, veri setinin sabit tutulduğu ters yaklaşımdır ve
iyileştirmeler şu yollarla aranmaktadır
hiperparametre ayarı veya mimari
değişiklikler. üzerinde bulunan araştırma makalelerinde en son teknolojinin sınırlarını zorlamak için gerekli olsa da
IEEE Xplore, genellikle azalan getiri sağlar
verilerin temizlenmesine kıyasla üretim.
-
Büyük Veri: Büyük Veri, öncelikle
bilginin hacmini, hızını ve çeşitliliğini ifade eder. Veri Merkezli Yapay Zeka, mutlaka "büyük" veriyi gerektirmez;
daha çok "akıllı" veriyi gerektirir. Veri Merkezli Yapay Zeka Topluluğu'nun vurguladığı gibi, küçük, mükemmel etiketlenmiş bir veri kümesi, genellikle büyük, gürültülü bir veri kümesinden daha iyi performans gösterir
.
-
Keşifsel Veri Analizi (EDA):
Veri görselleştirme ve EDA, veri merkezli iş akışındaki adımlardır.
EDA, aşağıdaki gibi araçları kullanarak tutarsızlıkları belirlemeye yardımcı olur
Pandasgibi araçları kullanarak tutarsızlıkları belirlemeye yardımcı olur, ancak Veri Merkezli Yapay Zeka,
bu sorunları gidererek
çıkarım motorunu iyileştirmeye yönelik tüm mühendislik yaşam döngüsünü kapsar.
-
MLOps:
Makine Öğrenimi Operasyonları (MLOps)
, AI üretiminin yaşam döngüsünü yönetmek için altyapı ve boru hatları sağlar. Veri Merkezli AI,
MLOps boru hatları içinde uygulanan ve bu hatlardan geçen verilerin güvenilir modeller oluşturmasını sağlayan metodolojidir.
Ağırlıklar ve Önyargılar Weights & Biases gibi platformlar
genellikle veri değişikliklerinin model metriklerini track etkilediğini track için kullanılır.