Veri Büyütme
Makine öğrenimi modellerinizi veri artırımı ile geliştirin. Doğruluğu artıracak, aşırı uyumu azaltacak ve sağlamlığı geliştirecek teknikleri keşfedin.
Veri artırımı, makine öğreniminde (ML) bir eğitim veri kümesinin boyutunu ve çeşitliliğini yapay olarak artırmak için kullanılan kritik bir tekniktir. Bu, mevcut veri örneklerinin değiştirilmiş ancak gerçekçi versiyonlarının oluşturulmasıyla elde edilir. Birincil amaç, yapay zeka modellerini eğitim sırasında daha çeşitli koşullara maruz bırakarak özellikle bilgisayarla görme (CV) alanında performanslarını ve sağlamlıklarını artırmaktır. Bu, bir modelin eğitim verilerini çok iyi öğrendiği ancak yeni, görünmeyen verilere genelleme yapamadığı aşırı uyumu önlemeye yardımcı olur ve sonuçta daha yüksek model doğruluğuna yol açar.
Veri Artırma Nasıl Çalışır?
Bilgisayarla görmede veri artırımı, görüntülere bir dizi dönüşüm uygulanmasını içerir. Bu dönüşümler, bir modelin konuşlandırıldıktan sonra karşılaşabileceği gerçek dünya varyasyonlarını simüle etmek için tasarlanmıştır. Yaygın teknikler şunları içerir:
- Geometrik Dönüşümler: Bunlar bir görüntünün uzamsal yönünü değiştirir. Örnekler arasında rastgele döndürmeler, ölçeklendirme, ötelemeler (kaydırma), kırpma ve çevirme (yatay veya dikey) yer alır. Bunlar modele nesnenin konumuna ve yönüne karşı değişmez olmayı öğretir.
- Renk Uzayı Dönüşümleri: Bunlar bir görüntünün renk özelliklerini değiştirir. Parlaklık, kontrast, doygunluk ve renk tonu ayarlamaları, modeli aydınlatma koşullarındaki değişikliklere karşı daha dayanıklı hale getirir.
- Gelişmiş Teknikler: Daha karmaşık yöntemler görüntü içeriğini daha önemli ölçüde değiştirmeyi içerir. Bunlar arasında rastgele gürültü (Gauss gürültüsü gibi) eklemek, bulanıklaştırma efektleri uygulamak veya mevcut iki görüntüyü doğrusal olarak birleştirerek yeni görüntüler oluşturan Mixup ve bir görüntünün bölgelerini rastgele kaldıran Cutout gibi yöntemleri kullanmak sayılabilir. Bu yöntemler hakkında daha fazla bilgi edinmek için The Ultimate Guide to Data Augmentation adlı makaleyi okuyabilirsiniz.
PyTorch ve TensorFlow gibi birçok derin öğrenme çerçevesi, veri artırımı için araçlar sağlar. Albumentations gibi uzmanlaşmış kütüphaneler, yüksek performanslı artırma tekniklerinden oluşan geniş bir koleksiyon sunar ve eğitim verilerini sorunsuz bir şekilde çeşitlendirmek için Ultralytics YOLO11 gibi modellerle entegre edilir.
Gerçek Dünya Uygulamaları
Veri artırımı, daha güvenilir yapay zeka sistemleri oluşturmak için birçok alanda standart bir uygulamadır.
- Sağlık Hizmetlerinde Yapay Zeka: Tıbbi görüntü analizinde, hasta mahremiyeti düzenlemeleri ve belirli hastalıkların nadir olması nedeniyle veri kümeleri genellikle küçüktür. Taramalarda tümörleri tespit etmeye yönelik bir modeli eğitmek için döndürme, ölçekleme ve parlaklık değişiklikleri gibi büyütme teknikleri daha çeşitli bir eğitim örnekleri kümesi oluşturur. Bu, modelin görüntüleme ekipmanındaki veya hasta pozisyonundaki değişikliklerden bağımsız olarak anomalileri doğru bir şekilde tanımlamasına yardımcı olarak teşhis güvenilirliğini artırır.
- Otomotiv için Yapay Zeka: Otonom araçlar için sağlam nesne algılama sistemleri geliştirmek, sayısız sürüş senaryosundan veri gerektirir. Olası her koşul için veri toplamak yerine, artırma farklı hava koşullarını (örneğin, sentetik yağmur veya kar ekleyerek), aydınlatmayı (gündüz, alacakaranlık, gece) ve tıkanıklıkları (örneğin, başka bir araba tarafından kısmen gizlenmiş bir yaya) simüle edebilir. Bu, aracın algılama sistemini öngörülemeyen gerçek dünya ortamlarında daha güvenilir hale getirir.
Diğer önemli uygulamalar arasında kalite kontrol için üretimde yapay zek a ve değişen tarla koşullarında mahsul hastalıklarını tespit etmek için tarımda yapay zeka bulunmaktadır.
Veri Artırma ve İlgili Kavramlar
Veri artırımını veriyle ilgili diğer tekniklerden ayırt etmek önemlidir.
- Sentetik Veri: Her iki yöntem de veri kümelerini geliştirirken, farklı şekilde çalışırlar. Veri artırımı mevcut gerçek verileri değiştirir. Buna karşılık sentetik veri üretimi, simülasyonlar veya GAN'lar gibi üretken modeller kullanarak sıfırdan tamamen yeni, yapay veriler oluşturur. Artırma, gözlemlenen verilerin etrafındaki varyansı genişletirken, sentetik veriler orijinal veri kümesinde bulunmayan yeni senaryolar oluşturabilir, bu kavram bilgisayarla görmede sentetik verilere genel bakışta incelenmiştir.
- Veri Temizliği: Veri temizleme, bir veri kümesindeki hataları, tutarsızlıkları ve yanlışlıkları belirlemeye ve düzeltmeye odaklanan daha geniş veri ön işleme hattının bir parçasıdır. Amacı veri kalitesini artırmaktır. Öte yandan veri artırma, veri miktarını ve çeşitliliğini artırmakla ilgilidir. Temiz bir veri kümesi, büyütme uygulamasından önce ideal başlangıç noktasıdır.
- Transfer Öğrenimi: Bu teknik, ImageNet gibi büyük bir kıyaslama veri küm esi üzerinde önceden eğitilmiş bir modelin kullanılmasını ve ardından daha küçük, göreve özgü bir veri kümesi üzerinde ince ayar yapılmasını içerir. Veri artırımı genellikle performansı daha da artırmak ve yeni verilere aşırı uyumu önlemek için ince ayar aşamasında kullanılır.
Ultralytics HUB gibi platformlar, kullanıcıların güçlü, son teknoloji vizyon yapay zeka modelleri oluşturmalarına yardımcı olmak için veri artırmayı önemli bir adım olarak dahil ederek tüm model eğitim sürecini kolaylaştırır.