Neural Style Transfer (NST) teknolojisinin CNN'leri kullanarak görüntü içeriğini sanatsal stillerle nasıl harmanladığını öğrenin. Ultralytics veri artırma ve yaratıcı yapay zeka alanlarında bu teknolojinin kullanımını keşfedin.
Sinirsel Stil Aktarımı (NST), bilgisayar görme alanında yapay zekanın bir görüntünün görsel içeriğini başka bir görüntünün sanatsal stiliyle harmanlamasını sağlayan gelişmiş bir optimizasyon tekniğidir. Derin sinir ağlarını, özellikle Convolutional Neural Networks (CNNs) kullanarak, bu algoritma "içerik" fotoğrafının (örneğin bir şehir manzarası) korurken, "stil" referansının (örneğin ünlü bir tablo) dokularını, renklerini ve fırça darbelerini uygulayan yeni bir çıktı görüntüsü sentezler. Bu süreç, düşük seviyeli istatistiksel özellik çıkarma ile yüksek seviyeli sanatsal yaratıcılık arasındaki boşluğu etkili bir şekilde doldurarak, benzersiz, stilize görsellerin üretilmesini sağlar.
NST'nin arkasındaki mekanizma, derin bir ağın içeriği stilden ayırma yeteneğine dayanır. Bir görüntü, önceden eğitilmiş bir ağdan (genellikle büyük ImageNet üzerinde eğitilmiş VGG mimarisi) geçerken, farklı katmanlar farklı türde bilgiler çıkarır. Erken katmanlar kenarlar ve dokular gibi düşük seviyeli ayrıntıları yakalarken, daha derin katmanlar yüksek seviyeli anlamsal içerik ve şekilleri temsil eder.
Gatys ve diğerleri tarafından yapılan araştırmada ilk kez ayrıntılı olarak açıklanan NST süreci, rastgele bir gürültü görüntüsünü yinelemeli olarak değiştiren bir optimizasyon algoritması içerir ve iki farklı hata değerini aynı anda en aza indirir:
Ağ ağırlıklarının güncellendiği standart model eğitiminden farklı olarak , NST ağ ağırlıklarını dondurur ve kayıp fonksiyonları en aza indirilene kadar giriş görüntüsünün piksel değerlerini günceller .
Başlangıçta sanatsal filtreler oluşturmak için popüler hale gelen NST, daha geniş yapay zeka alanında estetiğin ötesinde pratik bir kullanıma sahiptir. .
Nöral Stil Aktarımını, Ultralytics ünde bulunan diğer görüntü oluşturma tekniklerinden ayırmak önemlidir: Ultralytics :
NST'nin özü, önceden eğitilmiş bir modeli yükleyerek iç özellik katmanlarına erişmektir. YOLO26 gibi modern nesne algılayıcılar algılama hızı ve doğruluğu açısından optimize edilmiş olsa da , VGG-19 gibi mimariler, özel özellik hiyerarşileri nedeniyle stil aktarımı için standart olmaya devam etmektedir.
Aşağıdaki PyTorch örneği, NST'nin özellik çıkarma aşamasında backbone kullanılan bir model backbone nasıl yükleneceğini göstermektedir:
import torchvision.models as models
# Load VGG19, a standard backbone for Neural Style Transfer
# We use the 'features' module to access the convolutional layers
vgg = models.vgg19(weights=models.VGG19_Weights.DEFAULT).features
# Freeze parameters: NST updates the image pixels, not the model weights
for param in vgg.parameters():
param.requires_grad = False
print("VGG19 loaded. Ready to extract content and style features.")
Stil aktarımı ile zenginleştirilmiş veri kümelerini yönetmek veya aşağı akış algılama modellerini eğitmek isteyen kullanıcılar için Ultralytics , veri kümesi açıklaması, sürüm oluşturma ve model dağıtımı için merkezi bir ortam sağlar.