Token Merging (ToMe)
Token Birleştirme (ToMe) yönteminin Transformer ve ViT modellerini nasıl optimize ettiğini öğren. FLOP'ları nasıl azaltacağını, gerçek zamanlı çıkarımı nasıl hızlandıracağını ve Üretken Yapay Zeka hızını nasıl artıracağını keşfet.
Token Merging (ToMe), ileri geçişler sırasında işlenen token sayısını azaltarak Transformer mimarilerinin performansını ve verimliliğini optimize etmek için tasarlanmış son teknoloji bir tekniktir. Başlangıçta Vision Transformer (ViT) modellerini hızlandırmak için geliştirilen ToMe, herhangi bir ek eğitim gerektirmeden ağ içindeki gereksiz token'ları sistematik olarak tanımlayıp birleştirerek çalışır. Self-attention mekanizmasının hesaplama karmaşıklığı token sayısıyla karesel olarak ölçeklendiğinden, benzer token'ları birleştirmek toplam kayan nokta işlemlerini (FLOPs) büyük ölçüde azaltır ve çok daha hızlı gerçek zamanlı çıkarım sağlar.
Link to this sectionToken Birleştirme Sürecini Anlamak#
ToMe is fundamentally different from tokenization, which is the initial preprocessing step of breaking down an image or text into individual tokens. While tokenization creates the discrete elements, Token Merging acts as a dynamic downsampling mechanism during the model's forward execution.
Algoritma genellikle token benzerliğini değerlendirmek için iki taraflı eşleştirme kullanır ve sıklıkla dikkat katmanlarındaki token anahtarları arasında kosinüs benzerliğini hesaplar. Çok benzer görsel veya anlamsal bilgileri paylaşan token'lar, genellikle özelliklerinin ortalaması alınarak birleştirilir. Bu, gereksiz hesaplama yükünü atarken temel uzamsal veya bağlamsal bilgilerin korunmasını sağlar ve PyTorch gibi çerçevelerin karmaşık görme modellerini çok daha hızlı işlemesine olanak tanır.
Link to this sectionToken Merging'in Gerçek Dünya Uygulamaları#
Token Merging, hesaplama açısından kısıtlı ortamlarda ağır, dikkat tabanlı mimarilerin dağıtımı için kritik bir optimizasyon stratejisi haline gelmiştir.
-
Üretken Yapay Zeka ve Görüntü Sentezi: Popüler metinden görüntüye yayılma (diffusion) modellerinde, ToMe görüntü üretimini hızlandırmak için sıklıkla kullanılır. Arka plan veya düşük detaylı token'ları birleştirerek, üretim süreci daha az adım gerektirir, böylece GPU kaynaklarından büyük tasarruf sağlanır ve üretken modellere güvenen son kullanıcılar için gecikme süresi azalır. Yayılma süreçleri hakkında daha fazla bilgiyi arXiv üzerindeki temel araştırmalardan edinebilirsin.
-
Uç Yapay Zeka Dağıtımları: Segment Anything Model (SAM) gibi devasa modelleri mobil cihazlara dağıtmak, bellek kısıtlamaları nedeniyle oldukça zordur. ToMe, bellek ayak izini dinamik olarak küçülterek karmaşık görüntü segmentasyonu görevlerinin uç donanımlarda çalışmasına olanak tanır. Saf hızın kritik olduğu senaryolar için mühendisler genellikle daha hızlı, uçtan uca uç çıkarım için Ultralytics YOLO26 gibi yerel olarak optimize edilmiş, dikkat içermeyen mimarilere yönelirler.
Link to this sectionPython Örneği: Token Benzerliği Hesaplaması#
ToMe'yi tam bir mimariye entegre etmek dikkat bloklarının değiştirilmesini gerektirse de, temel kavram benzer token'ları bulmaya dayanır. Aşağıdaki PyTorch kod parçacığı, hangilerinin birleştirilmeye aday olduğunu belirlemek için bir token seti arasında kosinüs benzerliğinin nasıl hesaplanabileceğini göstermektedir.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)Modern makine öğrenimi süreçleri, doğruluk ve hız arasında dikkatli bir denge gerektirir. İster özel bir ViT'yi optimize etmek için Token Merging kullanıyor ol, ister YOLO26'nın en son verimliliklerinden yararlanıyor ol, bu karmaşık veri iş akışlarını yönetmek Ultralytics Platform ile büyük ölçüde basitleştirilmiştir. Platform, otomatik veri etiketleme, kesintisiz bulut eğitimi ve çeşitli uç bilişim donanım ortamlarında sağlam model dağıtımı için sezgisel bir ekosistem sağlar. Bilgisayarlı görü girişimlerini ölçeklendiren kuruluşlar, en son teknoloji modelleri güvenilir ve verimli bir şekilde üretime taşımak için bu araçlara güvenirler.






