Token Merging (ToMe) teknolojisinin Transformer ve ViT modellerini nasıl optimize ettiğini öğrenin. FLOP değerlerini nasıl azaltabileceğinizi, gerçek zamanlı çıkarım işlemlerini nasıl hızlandırabileceğinizi ve üretken yapay zeka hızını nasıl artırabileceğinizi keşfedin.
Token Merging (ToMe), ileri geçişler sırasında işlenen token sayısını azaltarak Transformer mimarilerinin performansını ve verimliliğini optimize etmek üzere tasarlanmış son teknoloji bir tekniktir. Başlangıçta Vision Transformer (ViT) modellerini hızlandırmak için geliştirilen ToMe, herhangi bir ek eğitim gerektirmeden ağ içindeki gereksiz tokenleri sistematik olarak belirleyip birleştirerek çalışır. Kendi kendine dikkat mekanizmasının hesaplama karmaşıklığı, token sayısıyla kare orantılı olarak arttığından, benzer tokenlerin birleştirilmesi toplam kayan nokta işlemlerini (FLOP) önemli ölçüde azaltır ve çok daha hızlı gerçek zamanlı çıkarım yapılmasını sağlar.
ToMe, bir görüntüyü veya metni tek tek belirteçlere ayırmaya yönelik ilk ön işleme adımı olan belirteçleştirme işleminden temelden farklıdır. Belirteçleştirme ayrı öğeler oluştururken, Belirteç Birleştirme, modelin ileri yönlü yürütülmesi sırasında dinamik bir alt örnekleme mekanizması olarak işlev görür.
Algoritma, token benzerliğini değerlendirmek için genellikle iki parçalı eşleştirme yöntemini kullanır ve çoğu zaman dikkat katmanlarındaki tokenlerin anahtarları arasında kosinüs benzerliğini hesaplar. Görsel veya anlamsal açıdan oldukça benzer bilgilere sahip tokenler, genellikle özelliklerinin ortalaması alınarak birleştirilir. Bu, gereksiz hesaplama yükünü ortadan kaldırırken temel uzamsal veya bağlamsal bilgilerin korunmasını sağlar ve böylece PyTorch gibi çerçevelerin karmaşık görme modellerini çok daha hızlı işlemesine olanak tanır.
Token birleştirme, hesaplama kapasitesi sınırlı ortamlarda dikkat tabanlı ağır mimarilerin uygulanması için kritik bir optimizasyon stratejisi haline gelmiştir.
ToMe'yi tam bir mimariye entegre etmek dikkat bloklarının değiştirilmesini gerektirse de, temel kavram benzer tokenleri bulmaya dayanır. Aşağıdaki PyTorch , bir token kümesi arasında kosinüs benzerliğini hesaplayarak hangilerinin birleştirilmeye aday olduğunu belirlemeyi göstermektedir.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)
Modern makine öğrenimi iş akışları, doğruluk ve hız arasında dikkatli bir denge kurulmasını gerektirir. İster özel bir ViT modelini optimize etmek için Token Merging'i kullanıyor olun, ister YOLO26'nın son teknoloji verimliliğinden yararlanıyor olun, bu karmaşık veri iş akışlarının yönetimi Ultralytics sayesinde büyük ölçüde basitleştirilir. Platform, çeşitli uç bilgi işlem donanım ortamlarında otomatik veri etiketleme, kesintisiz bulut eğitimi ve sağlam model dağıtımı için sezgisel bir ekosistem sunar. Bilgisayar görme girişimlerini genişleten kuruluşlar, en son teknolojiye sahip modelleri güvenilir ve verimli bir şekilde üretime geçirmek için bu araçlara güveniyor.
Makine öğreniminin geleceği ile yolculuğunuza başlayın