Veri kümesi damıtma işleminin, büyük veri kümelerini küçük, optimize edilmiş sentetik örnek kümeleriyle değiştirerek model eğitimini nasıl hızlandırdığını ve hesaplama maliyetlerini nasıl azalttığını öğrenin.

Veri kümesi damıtma işleminin, büyük veri kümelerini küçük, optimize edilmiş sentetik örnek kümeleriyle değiştirerek model eğitimini nasıl hızlandırdığını ve hesaplama maliyetlerini nasıl azalttığını öğrenin.

Eğitim modelleri, veri bilimcisinin işinin en zaman alıcı kısmı gibi görünebilir. Ancak zamanlarının çoğu, genellikle %60 ila %80'i, aslında verileri hazırlamakla geçer: verileri toplamak, temizlemek ve modelleme için düzenlemek. Veri kümeleri büyüdükçe, bu hazırlık süresi de uzar, deneyleri yavaşlatır ve yinelemeyi zorlaştırır.
Bu sorunu çözmek için araştırmacılar, eğitimi kolaylaştırmanın yollarını bulmak için yıllarını harcadılar. Sentetik veri, veri kümesi sıkıştırma ve daha iyi optimizasyon yöntemleri gibi yaklaşımların hepsi, büyük ölçekli veri kümeleriyle çalışmanın maliyetini ve zorluklarını azaltmayı ve makine öğrenimi iş akışlarını hızlandırmayı amaçlamaktadır.
Bu durumun ortaya çıkardığı önemli bir soru, veri kümesini önemli ölçüde küçültebilir miyiz, ancak yine de tam veriler üzerinde model eğitimi ile aynı performansı elde edebilir miyiz? Veri kümesi damıtma, bu sorunun umut verici bir cevabıdır.
Model'in etkili bir şekilde öğrenmesi için gerekli olan temel kalıpları korurken, büyük bir eğitim veri setinin kompakt bir versiyonunu oluşturur. Daha hızlı eğitim, daha düşük hesaplama ihtiyaçları ve daha verimli denemeler için bir yol sağlar. Bunu, model için bir çalışma kopya kağıdı, tam veri setiyle aynı temel kalıpları öğretmek için tasarlanmış küçük bir sentetik veri örnekleri kümesi olarak düşünebilirsiniz.
Bu makalede, veri kümesi damıtmanın nasıl çalıştığını ve gerçek dünya uygulamalarında ölçeklenebilir makine öğrenimi ve derin öğrenmeyi nasıl desteklediğini inceleyeceğiz. Hadi başlayalım!
Veri kümesi damıtma, büyük bir eğitim veri kümesinin, modele orijinal veri kümesiyle neredeyse aynı bilgileri öğreten çok daha küçük bir veri kümesine yoğunlaştırıldığı bir işlemdir. Birçok araştırmacı, bu işlemi veri kümesi yoğunlaştırma olarak da adlandırır, çünkü amaç, tüm veri kümesinde görünen temel kalıpları yakalamaktır.
Damıtılmış veri kümesi, rastgele oluşturulan sentetik verilerden veya gerçek görüntülerden daha küçük bir alt kümenin seçilmesinden farklıdır. Rastgele oluşturulmuş sahte bir veri kümesi veya orijinalin kırpılmış bir kopyası değildir.
Bunun yerine, en önemli kalıpları yakalamak için kasıtlı olarak optimize edilmiştir. Bu süreçte, her piksel ve özellik ayarlanır ve optimize edilir, böylece damıtılmış verilerle eğitilmiş bir sinir ağı, sanki tüm veri kümesi üzerinde eğitilmiş gibi öğrenir.
Bu fikir ilk olarak Tongzhou Wang, Jun-Yan Zhu, Antonio Torralba ve Alexei A. Efros tarafından 2018 yılında arXiv'de yayınlanan bir makalede ortaya çıktı. İlk testlerde MNIST ve CIFAR-10 gibi basit veri setleri kullanıldı ve bu sayede birkaç damıtılmış örneğin binlerce gerçek görüntünün yerini alabileceği kolayca gösterilebildi.
.webp)
O zamandan beri, takip eden çalışmalar veri seti damıtmayı daha da ileriye götürdü. Bunlar arasında, yoğunlaştırmayı daha verimli ve ölçeklenebilir hale getiren, ICML ve ICLR'de yayınlanan yöntemler de bulunuyor.
Veri seti damıtma, eğitim verimliliğini artırır ve geliştirme döngülerini hızlandırır. Modelin öğrenmesi gereken veri miktarını azaltarak, hesaplama gereksinimlerini düşürür.
Bu, modellerin zaman içinde güncellendiği sürekli öğrenme, birçok model tasarımının test edildiği sinir mimarisi arama ve modellerin sınırlı bellek ve güce sahip küçük cihazlarda çalıştığı kenar eğitimi için özellikle yararlıdır. Genel olarak, bu avantajlar veri kümesi damıtmayı birçok makine öğrenimi iş akışında hızlı başlatma, hızlı ince ayar ve erken prototip oluşturma için harika bir seçenek haline getirir.
Veri seti damıtma, sentetik veya yapay olarak üretilmiş eğitim örnekleri oluşturur. Bu örnekler, modelin gerçek verilerle eğitilmesine çok benzer bir şekilde öğrenmesine yardımcı olur. Normal eğitim sırasında üç temel faktörü izleyerek çalışır.
Birincisi, modelin tahminlerinin ne kadar yanlış olduğunu gösteren hata puanı olan kayıp fonksiyonudur. İkincisi, öğrenme sürecinde güncellenen ağın iç ağırlıkları olan model parametreleridir.
Üçüncüsü, zaman içinde hatanın ve ağırlıkların adım adım nasıl değiştiğini açıklayan eğitim yörüngesidir. Sentetik örnekler daha sonra, bir model bu örnekler üzerinde eğitim verdiğinde, hatası düşecek ve ağırlıkları tam veri kümesinde olduğu gibi güncellenecek şekilde optimize edilir.
Veri seti damıtma sürecinin nasıl işlediğine daha yakından bakalım:

Tüm veri kümesi damıtma yöntemleri, farklı algoritmalar kullanıyor olsalar da aynı temel fikir üzerine kuruludur. Çoğu yaklaşım üç kategoriye ayrılır: performans eşleştirme, dağıtım eşleştirme ve parametre eşleştirme.
Şimdi, her birini tek tek inceleyerek nasıl çalıştığını görelim.
Veri kümesi damıtmada performans eşleştirme, modelin tam ve orijinal veri kümesi üzerinde eğitilmiş gibi neredeyse aynı doğruluğa ulaşmasını sağlayan küçük, optimize edilmiş bir eğitim kümesi oluşturmaya odaklanır. Rastgele bir alt küme seçmek yerine, damıtılmış örnekler optimize edilir, böylece bunlar üzerinde eğitilen model, orijinal veri kümesi üzerinde eğitilen modelle benzer tahminler, benzer kayıp davranışı veya benzer nihai doğruluk elde eder.
Meta öğrenme, bu süreci iyileştirmek için yaygın olarak kullanılan bir yöntemdir. Damıtılmış veri kümesi, tekrarlanan eğitim aşamalarıyla güncellenir, böylece birçok olası durumda etkili hale gelir.
Bu aşamalarda, yöntem bir öğrenci modelinin mevcut damıtılmış örneklerden nasıl öğrendiğini simüle eder, o öğrencinin gerçek veriler üzerinde ne kadar iyi performans gösterdiğini kontrol eder ve ardından damıtılmış örnekleri daha iyi öğretmenler olacak şekilde ayarlar. Zamanla, damıtılmış set, öğrenci modeli farklı başlangıç ağırlıklarından başlasa veya farklı bir mimari kullanıyor olsa bile, hızlı öğrenmeyi ve güçlü genellemeyi desteklemeyi öğrenir. Bu, damıtılmış veri setini daha güvenilir hale getirir ve tek bir eğitim çalışmasına bağlı kalmaz.
.webp)
Bu arada, dağıtım eşleştirme, gerçek veri kümesinin istatistiksel modellerine uyan sentetik veriler üretir. Bu yaklaşım, yalnızca modelin nihai doğruluğuna odaklanmak yerine, sinir ağının öğrenme sırasında ürettiği iç özelliklere odaklanır.
Şimdi, dağıtım eşleştirmesini yönlendiren iki tekniğe bir göz atalım.
Tek katmanlı dağıtım eşleştirme, sinir ağının tek bir katmanına odaklanır ve gerçek verilerle sentetik veriler için ürettiği özellikleri karşılaştırır. Aktivasyonlar olarak da adlandırılan bu özellikler, modelin ağın o noktasında öğrendiklerini yakalar.
Sentetik verilerin benzer aktivasyonlar üretmesini sağlayarak, bu yöntem damıtılmış veri setinin orijinal veri setiyle aynı önemli kalıpları yansıtmasını teşvik eder. Uygulamada, sentetik örnekler, seçilen katmandaki aktivasyonlar gerçek görüntülerdekilerle yakından eşleşene kadar tekrar tekrar güncellenir.
Bu yaklaşım, bir seferde yalnızca bir temsil düzeyini hizaladığı için nispeten basittir. Derin, çok aşamalı özellik hiyerarşilerinin eşleştirilmesinin gerekli olmadığı daha küçük veri kümelerinde veya görevlerde özellikle iyi sonuç verebilir. Tek bir özellik alanını net bir şekilde hizalayarak, tek katmanlı eşleştirme, damıtılmış veri kümesi ile öğrenme için istikrarlı ve anlamlı bir sinyal sağlar.
Çok katmanlı dağıtım eşleştirme, gerçek ve sentetik verileri tek bir katman yerine sinir ağının birkaç katmanında karşılaştırma fikrine dayanır. Farklı katmanlar, erken katmanlardaki basit kenarlar ve dokulardan daha derin katmanlardaki şekiller ve daha karmaşık desenlere kadar farklı türde bilgileri yakalar.
Bu katmanlar arasındaki özellikleri eşleştirerek, damıtılmış veri kümesi, modelin birden fazla düzeyde öğrendiklerini yansıtacak şekilde itilir. Bu yaklaşım, ağ genelinde özellikleri hizaladığı için, sentetik verilerin, modelin sınıfları ayırt etmek için dayandığı daha zengin sinyalleri korumasına yardımcı olur.
Bu, özellikle bilgisayar görüşünde, yani modellerin görüntüleri ve videoları anlamayı öğrendiği görevlerde yararlıdır, çünkü yararlı modeller birçok katmana yayılmıştır. Özellik dağılımları birkaç derinlikte iyi eşleştiğinde, damıtılmış veri kümesi orijinal eğitim verilerinin yerine daha güçlü ve daha güvenilir bir alternatif olarak işlev görür.
Veri seti damıtmada bir diğer önemli kategori parametre eşleştirmedir. Doğruluk veya özellik dağılımlarını eşleştirmek yerine, modelin ağırlıklarının eğitim sırasında nasıl değiştiğini eşleştirir. Damıtılmış veri seti üzerinde yapılan eğitim, gerçek veri eğitimine benzer parametre güncellemeleri üreterek, model neredeyse aynı öğrenme yolunu izler.
Şimdi iki ana parametre eşleştirme yöntemini inceleyeceğiz.
Tek adımlı eşleştirme, gerçek veriler üzerinde sadece bir eğitim adımından sonra modelin ağırlıklarında neler olduğunu karşılaştırır. Ardından, damıtılmış veri kümesi, üzerinde bir adım eğitim verilen modelin çok benzer bir ağırlık güncellemesi üretmesi için ayarlanır. Yalnızca bu tek güncellemeye odaklandığı için, yöntem basit ve hızlıdır.
Dezavantajı ise, tek bir adımın tüm öğrenme sürecini yansıtmamasıdır, özellikle modelin daha zengin özellikler oluşturmak için birçok güncellemeye ihtiyaç duyduğu daha zor görevlerde. Bu nedenle, tek adımlı eşleştirme, yararlı kalıpların hızlı bir şekilde tespit edilebildiği daha basit problemlerde veya daha küçük veri kümelerinde en iyi sonucu verir.
Buna karşılık, çok adımlı parametre eşleştirme, bir modelin ağırlıklarının sadece bir adımda değil, birkaç eğitim adımında nasıl değiştiğine bakar. Bu güncelleme dizisi, modelin eğitim yörüngesidir.
Damıtılmış veri kümesi, bir model sentetik örnekler üzerinde eğitildiğinde, yörüngesinin gerçek veriler üzerinde alacağı yörüngeyi yakından takip edecek şekilde oluşturulmuştur. Daha uzun bir öğrenme süreciyle eşleşerek, damıtılmış küme orijinal eğitim sürecindeki yapıyı daha fazla yakalar.
Öğrenmenin zaman içinde nasıl geliştiğini yansıttığı için, çok adımlı eşleştirme genellikle modellerin yararlı kalıpları yakalamak için birçok güncellemeye ihtiyaç duyduğu daha büyük veya daha karmaşık veri kümeleri için daha iyi sonuç verir. track adımı track gerektiğinden daha fazla hesaplama gerektirir, ancak genellikle tek adımlı eşleştirmeye göre daha iyi genelleme yapan ve daha iyi performans gösteren damıtılmış veri kümeleri üretir.
Ana damıtma yaklaşımlarını daha iyi anladıktan sonra, şimdi sentetik verilerin nasıl oluşturulduğuna bakabiliriz. Veri kümesi damıtmada, sentetik örnekler en önemli öğrenme sinyalini yakalamak için optimize edilir, böylece küçük bir küme çok daha büyük bir veri kümesinin yerini alabilir.
Ardından, bu damıtılmış verilerin nasıl üretildiğini ve değerlendirildiğini göreceğiz.
Veri kümesi damıtma sırasında, sentetik pikseller birçok eğitim adımında güncellenir. Sinir ağı, mevcut sentetik görüntülerden öğrenir ve gradyan tabanlı geri bildirim gönderir. Bu geri bildirim, her pikselin gerçek veri kümesindeki desenlere daha iyi uyması için nasıl değişmesi gerektiğini gösterir.
Bu, süreç türevlenebilir olduğu için işe yarar (yani her adım düzgün ve iyi tanımlanmış gradyanlara sahiptir, bu nedenle küçük piksel değişiklikleri kayıplarda öngörülebilir değişikliklere yol açar), böylece model gradyan inişi sırasında sentetik verileri sorunsuz bir şekilde ayarlayabilir.
Optimizasyon devam ettikçe, sentetik görüntüler modelin tanıdığı şekiller ve dokular dahil olmak üzere anlamlı bir yapı oluşturmaya başlar. Bu rafine sentetik görüntüler, sınıflandırıcıların öğrenmesi gereken temel görsel ipuçlarını yakaladıkları için genellikle görüntü sınıflandırma görevlerinde kullanılır.
Damıtılmış veri kümeleri, üzerlerinde modeller eğitilerek ve sonuçlar gerçek verilerle eğitilmiş modellerle karşılaştırılarak değerlendirilir. Araştırmacılar, doğrulama doğruluğunu ölçer ve sentetik kümenin, sınıfları ayırmak için gerekli olan ayırt edici özellikleri (modelin bir sınıfı diğerinden ayırmak için dayandığı kalıplar veya sinyaller) koruyup korumadığını kontrol eder. Ayrıca, damıtılmış verilerin aşırı uyuma yol açmadığından emin olmak için farklı çalıştırmalarda veya model kurulumlarında kararlılık ve genelleştirme testleri yaparlar.
Ardından, veriler sınırlı veya son derece özel olsa bile, damıtılmış veri kümelerinin eğitimi nasıl hızlandırdığını ve hesaplama maliyetlerini nasıl azalttığını, aynı zamanda güçlü performansı nasıl koruduğunu gösteren örnekleri daha yakından inceleyeceğiz.
Bilgisayar görüşü söz konusu olduğunda, amaç modellerin görüntü ve videolar gibi görsel verileri anlamasını sağlamaktır. Bu modeller kenarlar, dokular, şekiller ve nesneler gibi kalıpları öğrenir ve ardından bu kalıpları görüntü sınıflandırma, nesne algılama veya segmentasyon gibi görevler için kullanır. Görme sorunları genellikle aydınlatma, arka plan ve bakış açılarında büyük farklılıklar gösterdiğinden, bilgisayar görüş sistemleri genellikle iyi bir genelleme yapabilmek için büyük veri kümelerine ihtiyaç duyar, bu da eğitimi pahalı ve yavaş hale getirir.

Tıbbi taramalar, vahşi yaşam izleme veya fabrika kusur tespiti gibi görüntü sınıflandırma kullanım durumlarında, modeller genellikle doğruluk ve eğitim maliyeti arasında zorlu bir denge kurmak zorunda kalır. Bu görevler genellikle büyük veri kümelerini içerir.
Veri kümesi damıtma, orijinal eğitim kümesini, sınıflandırıcı için en önemli görsel ipuçlarını hala içeren az sayıda sentetik görüntüye sıkıştırabilir. ImageNet gibi büyük karşılaştırma ölçütlerinde, orijinal görüntülerin yalnızca yaklaşık %4,2'sini kullanan damıtılmış kümelerin güçlü sınıflandırma doğruluğunu koruduğu gösterilmiştir. Bu, küçük bir sentetik vekilin milyonlarca gerçek örneği çok daha az hesaplama ile değiştirebileceği anlamına gelir.
Sinir mimarisi arama veya NAS, bir görev için en uygun olanı bulmak üzere birçok olası sinir ağı tasarımını otomatik olarak araştıran bir tekniktir. NAS, çok sayıda aday modeli eğitmek ve değerlendirmek zorunda olduğundan, tam veri kümeleri üzerinde çalıştırmak yavaş ve hesaplama açısından çok yoğun olabilir.
Veri kümesi damıtma, orijinal verilerin ana öğrenme sinyalini hala içeren küçük bir sentetik eğitim kümesi oluşturarak yardımcı olur, böylece her aday mimari çok daha hızlı test edilebilir. Bu, NAS'ın tasarımları verimli bir şekilde karşılaştırmasına ve iyi ile kötü mimarilerin sıralamasını makul ölçüde güvenilir tutmasına olanak tanır, böylece nihai model kalitesinden çok fazla ödün vermeden arama maliyetini azaltır.
Sürekli öğrenme sistemleri, yani bir kez eğitildikten sonra yeni veriler geldikçe güncellenmeye devam eden modeller, hızlı ve bellek açısından verimli güncellemeler gerektirir. Kameralar, telefonlar ve sensörler gibi uç cihazlar, sınırlı hesaplama ve depolama bütçelerine sahip oldukları için benzer sınırlamalarla karşı karşıyadır.
Veri seti damıtma, her iki durumda da büyük bir eğitim setini küçük bir sentetik sete sıkıştırarak yardımcı olur, böylece modeller tam veri seti yerine küçük bir tekrar seti kullanarak uyarlanabilir veya yeniden eğitilebilir. Örneğin, çekirdek tabanlı meta öğrenme çalışması, sadece 10 damıtılmış örneğin, standart bir görüntü sınıflandırma karşılaştırma ölçütü olan CIFAR-10'da %64'ün üzerinde doğruluk elde edebileceğini göstermiştir. Tekrar seti çok kompakt olduğu için, özellikle modellerin sık sık yenilenmesi gerektiğinde, güncellemeler çok daha hızlı ve pratik hale gelir.
Veri kümesi damıtma, büyük dil modelleri için bilgi damıtma ile birlikte de çalışabilir. Küçük bir damıtılmış veri kümesi, öğretmen modelinden en önemli görev sinyallerini koruyabilir, böylece sıkıştırılmış öğrenci modeli, performanstan çok fazla ödün vermeden daha verimli bir şekilde eğitilebilir veya yenilenebilir. Bu veri kümeleri çok küçük olduğundan, depolama ve hesaplama kapasitesinin sınırlı olduğu ancak güncellemelerden sonra modelin doğruluğunun korunmasını istediğiniz uç veya cihaz içi kullanım için özellikle yararlıdır.
Veri kümesi damıtma kullanmanın bazı avantajları şunlardır:
Veri kümesi damıtma birçok avantaj sunsa da, akılda tutulması gereken bazı sınırlamalar vardır:
Veri seti damıtma, küçük bir sentetik örnek kümesinin bir modeli neredeyse tam bir veri seti kadar etkili bir şekilde öğretmesini mümkün kılar. Bu, makine öğrenimini daha hızlı, daha verimli ve ölçeklendirilmesi daha kolay hale getirir. Modeller büyüdükçe ve daha fazla veri gerektirdikçe, damıtılmış veri setleri, doğruluktan ödün vermeden hesaplama maliyetlerini azaltmanın pratik bir yolunu sunar.
Topluluğumuza katılın ve GitHub deposunu inceleyerek AI hakkında daha fazla bilgi edinin. Kendi Vision AI projenizi oluşturmak istiyorsanız, lisans seçeneklerimizi inceleyin. Çözüm sayfalarımızı ziyaret ederek sağlık hizmetlerinde AI ve perakendecilikte Vision AI gibi uygulamalar hakkında daha fazla bilgi edinin.