Token Merging (ToMe)
Aprende como o Token Merging (ToMe) otimiza modelos Transformer e ViT. Descobre como reduzir FLOPs, acelerar a inferência em tempo real, e aumentar a velocidade da IA Generativa.
Token Merging (ToMe) é uma técnica de ponta projetada para otimizar o desempenho e a eficiência de arquiteturas Transformer ao reduzir o número de tokens processados durante os passos de avanço (forward passes). Originalmente desenvolvida para acelerar modelos Vision Transformer (ViT), a ToMe funciona identificando e combinando sistematicamente tokens redundantes dentro da rede, sem exigir qualquer treinamento adicional. Como a complexidade computacional do mecanismo de self-attention escala quadraticamente com o número de tokens, mesclar tokens semelhantes reduz drasticamente o total de operações de ponto flutuante (FLOPs), permitindo uma real-time inference significativamente mais rápida.
Link to this sectionEntendendo o processo de Token Merging#
A ToMe é fundamentalmente diferente da tokenization, que é o passo inicial de pré-processamento de decompor uma imagem ou texto em tokens individuais. Enquanto a tokenização cria elementos discretos, o Token Merging atua como um mecanismo dinâmico de subamostragem durante a execução de avanço do modelo.
O algoritmo normalmente usa pareamento bipartido para avaliar a similaridade dos tokens, calculando frequentemente a similaridade de cosseno entre as chaves dos tokens nas camadas de atenção. Tokens que compartilham informações visuais ou semânticas altamente semelhantes são fundidos — muitas vezes fazendo a média de suas características. Isso garante que informações espaciais ou contextuais essenciais sejam preservadas enquanto se elimina carga computacional desnecessária, permitindo que frameworks como o PyTorch processem modelos de visão complexos muito mais rapidamente.
Link to this sectionAplicações reais de Token Merging#
O Token Merging tornou-se uma estratégia de otimização crítica para implantar arquiteturas pesadas baseadas em atenção em ambientes com restrições computacionais.
-
Generative AI and Image Synthesis: Em modelos de difusão de texto para imagem populares, a ToMe é frequentemente usada para acelerar a geração de imagens. Ao mesclar tokens de fundo ou de baixo detalhe, o processo de geração requer menos passos, economizando imensos recursos de GPU e reduzindo a latência para usuários finais que dependem de modelos generativos. Podes aprender mais sobre processos de difusão em pesquisas fundamentais no arXiv.
-
Edge AI Deployments: Implantar modelos massivos como o Segment Anything Model (SAM) em dispositivos móveis é notoriamente difícil devido a restrições de memória. A ToMe ajuda a reduzir o uso de memória dinamicamente, permitindo que tarefas complexas de image segmentation rodem em hardware de borda. Para cenários onde a velocidade pura é crítica, engenheiros frequentemente optam por arquiteturas nativamente otimizadas e sem atenção, como o Ultralytics YOLO26, para uma inferência de borda ponta a ponta mais rápida.
Link to this sectionExemplo em Python: Cálculo de similaridade de tokens#
Embora integrar a ToMe em uma arquitetura completa exija a modificação dos blocos de atenção, o conceito central baseia-se em encontrar tokens semelhantes. O snippet de PyTorch a seguir demonstra como se pode calcular a similaridade de cosseno entre um conjunto de tokens para identificar quais são candidatos a serem mesclados.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)Pipelines de aprendizado de máquina modernos exigem um equilíbrio cuidadoso entre precisão e velocidade. Estejas a empregar Token Merging para otimizar um ViT personalizado ou a confiar na eficiência de ponta do YOLO26, gerir estes fluxos de trabalho de dados complexos é vastamente simplificado pela Ultralytics Platform. A plataforma fornece um ecossistema intuitivo para data annotation automatizada, treinamento em nuvem contínuo e implantação robusta de modelos em diversos ambientes de hardware de edge computing. Organizações que escalam as suas iniciativas de computer vision confiam nestas ferramentas para colocar modelos de última geração em produção de forma confiável e eficiente.






