Sentetik verilerin yapay zeka ve makine öğrenimini nasıl desteklediğini keşfedin. Ultralytics için yüksek kaliteli veri kümeleri oluşturarak model doğruluğunu nasıl artırabileceğinizi öğrenin.
Sentetik veriler, gerçek dünya verilerinin istatistiksel özelliklerini, kalıplarını ve yapısal özelliklerini taklit eden yapay olarak üretilen bilgilerdir. Hızla gelişen yapay zeka (AI) ve makine öğrenimi (ML) alanlarında, bu veriler, gerçek verilerin toplanmasının pahalı, zaman alıcı veya gizlilik düzenlemeleriyle kısıtlı olduğu durumlarda kritik bir kaynak görevi görür. Gerçek dünyadaki olaylardan elde edilen organik verilerin aksine, sentetik veriler bilgisayar simülasyonları ve gelişmiş üretici modeller gibi teknikler kullanılarak algoritmik olarak oluşturulur. Gartner'dakisektör analistleri, 2030 yılına kadar sentetik verilerin AI modellerinde gerçek verilerin önüne geçeceğini ve akıllı sistemlerin oluşturulma ve uygulanma şeklini kökten değiştireceğini öngörmektedir. .
Sentetik veri kümelerinin kullanılmasının temel nedeni, geleneksel veri toplama ve açıklama yöntemlerinin doğasında var olan sınırlamaları aşmaktır. Güçlü bilgisayar görme (CV) modelleri eğitmek genellikle çeşitli senaryolar içeren büyük veri kümeleri gerektirir. Nadir görülen hastalıkların teşhisi veya tehlikeli trafik kazaları gibi gerçek dünya verilerinin yetersiz olduğu durumlarda, sentetik veriler bu boşluğu doldurur.
Bu verilerin oluşturulması, geliştiricilerin talep üzerine mükemmel şekilde etiketlenmiş eğitim verileri oluşturmasına olanak tanır. Buna, nesne algılama için hassas sınırlayıcı kutular veya anlamsal segmentasyon için piksel mükemmelliğinde maskeler dahildir ve manuel etiketleme süreçlerinde sıklıkla görülen insan hatalarını ortadan kaldırır. Ayrıca, mühendislerin temsil edilmeyen gruplar veya çevresel koşullarla veri kümelerini kasıtlı olarak dengelemelerine olanak tanıyarak AI'daki önyargıları giderir ve daha adil bir model performansı sağlar. Bu, özellikle veri toplama ve etiketleme süreçlerinin pahalı olduğu durumlarda önemlidir.
Sentetik veriler, veri gizliliği, güvenliği ve ölçeklenebilirliğin çok önemli olduğu sektörlerde devrim yaratıyor.
Yüksek kaliteli sentetik veriler oluşturmak genellikle iki ana yaklaşımı içerir: simülasyon motorları ve üretken yapay zeka. Unity Engine gibi simülasyon motorları, fizik tabanlı aydınlatma ve dokularla sahneleri oluşturmak için 3D grafikler kullanır. Alternatif olarak, Generative Adversarial Networks (GAN'lar) ve difüzyon modelleri gibi üretken modeller, gerçek verilerin dağılımını öğrenerek yeni, fotogerçekçi örnekler sentezler.
Sentetik veri kümesi oluşturulduktan sonra, yüksek performanslı modelleri eğitmek için kullanılabilir. Aşağıdaki Python ,
sentetik verilerle eğitilmiş olabilecek bir modeli ultralytics paket
bir görüntü üzerinde çıkarımlama yapmak için.
from ultralytics import YOLO
# Load the YOLO26 model (latest stable generation for superior accuracy)
model = YOLO("yolo26n.pt")
# Run inference on a source image (this could be a synthetic validation image)
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results to verify model performance
results[0].show()
Sentetik veriyi veri artırma ile ayırt etmek yararlıdır, çünkü her iki teknik de veri kümelerini genişletmeyi amaçlar, ancak farklı şekilde işlev görür.
Ultralytics modern iş akışları genellikle her iki yaklaşımı da birleştirir: veri kümesindeki boşlukları doldurmak için sentetik veriler kullanmak ve YOLO26 gibi modellerin sağlamlığını en üst düzeye çıkarmak için eğitim sırasında veri artırımı uygulamak. .