Görsel-dil modelleri için bellek tasarruflu bir sigmoid kayıp yaklaşımı olan SigLIP'i keşfedin. Ultralytics YOLO ölçeklendirme ve eğitimi nasıl iyileştirdiğini öğrenin.
SigLIP (Sigmoid Loss for Language Image Pre-Training), görsel-dil modellerinin eğitilmesinde son derece verimli bir yaklaşımdır. İlk olarak Google araştırmacıları tarafından ortaya konan bu yöntem, AI modellerinin görseller ile bunlara karşılık gelen metin açıklamaları arasındaki ilişkiyi öğrenme biçimini temelden değiştirir. Geleneksel olasılık fonksiyonlarını daha basit bir ikili sınıflandırma yaklaşımıyla değiştiren SigLIP, geliştiricilerin çok daha az bellek yükü ve daha yüksek hesaplama verimliliği ile devasa çok modlu mimarileri eğitmelerine olanak tanır.
Görsel ve metin verilerini bir araya getiren standart makine öğrenimi iş akışlarında, modellerin doğru bir şekilde öğrenebilmesi için genellikle belirli bir partideki tüm verilere ilişkin genel bir bakış açısına ihtiyaç duyulur. SigLIP, her görüntü-metin çiftini bağımsız bir ikili sınıflandırma problemi olarak ele alarak bu darboğazı ortadan kaldırır. Standart bir sigmoid fonksiyonu kullanan model, belirli bir görüntünün ve metin açıklamasının eşleşip eşleşmediğini tahmin eder.
Kayıp fonksiyonuna yönelik bu yerelleştirilmiş yaklaşım, model eğitimi sırasında gereken bellek ihtiyacının kare orantılı değil, doğrusal olarak artacağı anlamına gelir. Sonuç olarak, mühendisler PyTorchgibi çerçeveler tarafından desteklenen standart donanım yapılandırmalarında önemli ölçüde daha büyük parti boyutları kullanabilirler; bu da, GPU üstel artışlara gerek kalmadan çeşitli veri kümelerinde
Modern yapay zeka mimarilerini incelerken, SigLIP'i öncülü olan CLIP'ten (Kontrastif Dil-Görüntü Ön Eğitimi) ayırmak büyük önem taşır.
SigLIP'in bellek tasarrufu sağlayan tasarımı, onu teknoloji sektöründeki çeşitli pratik uygulamalar için güçlü bir temel haline getiriyor:
Bu tür karmaşık görme görevleri için özel verileri yönetirken, ekipler genellikle Ultralytics kullanarak bulut veri setlerinin etiketleme sürecini kolaylaştırıyor ve yüksek hızlı uç cihaz çıkarımları için Ultralytics gibi gelişmiş modelleri devreye almadan önce metin ve görüntü analizlerini sorunsuz bir şekilde entegre ediyor.
SigLIP'in kayıp değerini temel düzeyde nasıl hesapladığını anlamak için, bu süreci temel PyTorch işlemlerini kullanarak simüle edebilirsiniz. Bu kod parçacığı, ikili sigmoid yaklaşımının geleneksel çok sınıflı olasılık mantığını nasıl değiştirdiğini göstermektedir.
import torch
import torch.nn.functional as F
# Simulate image and text embeddings from a vision-language model
image_embeddings = torch.randn(4, 256)
text_embeddings = torch.randn(4, 256)
# Calculate pairwise similarities (logits)
logits = torch.matmul(image_embeddings, text_embeddings.T)
# SigLIP uses a binary formulation: 1 for positive pairs, -1 for negative pairs
labels = torch.eye(4) * 2 - 1
loss = -F.logsigmoid(labels * logits).mean()
print(f"Calculated SigLIP Loss: {loss.item():.4f}")
Bu sadeleştirilmiş yaklaşımı kullanarak, IEEE ve ACM gibi kurumlarda yayın yapan araştırmacılar da dahil olmak üzere geniş yapay zeka topluluğu, çok modlu öğrenmenin sınırlarını zorlamaya devam ediyor ve yeni nesil görsel yapay zeka için yeni model eğitimi ipuçları ve en iyi uygulamalar geliştiriyor.
Makine öğreniminin geleceği ile yolculuğunuza başlayın