Glossário

Fusão de tokens (ToMe)

Saiba como a Token Merging (ToMe) otimiza os modelos Transformer e ViT. Descubra como reduzir os FLOPs, acelerar a inferência em tempo real e aumentar a velocidade da IA generativa.

A fusão de tokens (ToMe) é uma técnica de ponta concebida para otimizar o desempenho e a eficiência das arquiteturas Transformer, reduzindo o número de tokens processados durante as passagens de avanço. Originalmente desenvolvido para acelerar modelos Vision Transformer (ViT), o ToMe funciona identificando e combinando sistematicamente tokens redundantes dentro da rede, sem exigir qualquer treino adicional. Como a complexidade computacional do mecanismo de autoatenção varia quadraticamente com o número de tokens, a fusão de tokens semelhantes reduz drasticamente o total de operações de ponto flutuante (FLOPs), permitindo uma inferência em tempo real significativamente mais rápida.

Compreender o processo de fusão de tokens

O ToMe difere fundamentalmente da tokenização, que é a etapa inicial de pré-processamento que consiste em dividir uma imagem ou um texto em tokens individuais. Enquanto a tokenização cria os elementos discretos, a fusão de tokens funciona como um mecanismo dinâmico de redução de resolução durante a execução direta do modelo.

O algoritmo utiliza normalmente o emparelhamento bipartido para avaliar a semelhança entre tokens, calculando frequentemente a semelhança cosinusoidal entre as chaves dos tokens nas camadas de atenção. Os tokens que partilham informações visuais ou semânticas altamente semelhantes são fundidos — muitas vezes através da média das suas características. Isto garante que as informações espaciais ou contextuais essenciais sejam preservadas, ao mesmo tempo que se elimina a carga computacional desnecessária, permitindo que frameworks como PyTorch processem modelos de visão complexos muito mais rapidamente.

Aplicações práticas da fusão de tokens

A fusão de tokens tornou-se uma estratégia de otimização fundamental para a implementação de arquiteturas pesadas baseadas em atenção em ambientes com recursos computacionais limitados.

IA generativa e síntese de imagens: Nos populares modelos de difusão de texto para imagem, o ToMe é frequentemente utilizado para acelerar a geração de imagens. Ao fundir tokens de fundo ou de baixo detalhe, o processo de geração requer menos etapas, poupando imensos GPU e reduzindo a latência para os utilizadores finais que dependem de modelos generativos. Pode saber mais sobre os processos de difusão na investigação fundamental disponível no arXiv.
Implementações de IA na Periferia: A implementação de modelos de grande dimensão, como o Segment Anything Model (SAM), em dispositivos móveis é notoriamente difícil devido a restrições de memória. O ToMe ajuda a reduzir dinamicamente o consumo de memória, permitindo que tarefas complexas de segmentação de imagens sejam executadas em hardware de borda . Em cenários onde a velocidade pura é crítica, os engenheiros recorrem frequentemente a arquiteturas otimizadas nativamente e sem atenção como Ultralytics para uma inferência de ponta a ponta mais rápida .

Python : Cálculo da similaridade entre tokens

Embora a integração do ToMe numa arquitetura completa exija a modificação dos blocos de atenção, o conceito central assenta na identificação de tokens semelhantes. O seguinte PyTorch demonstra como se pode calcular a similaridade cosinusoidal entre um conjunto de tokens para identificar quais são os candidatos à fusão.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

Os fluxos de trabalho modernos de aprendizagem automática exigem um equilíbrio cuidadoso entre precisão e velocidade. Quer esteja a utilizar a Token Merging para otimizar um ViT personalizado ou a recorrer às eficiências de ponta do YOLO26, a gestão destes complexos fluxos de trabalho de dados é consideravelmente simplificada pela Ultralytics . A Plataforma oferece um ecossistema intuitivo para a anotação automatizada de dados, formação na nuvem sem interrupções e implementação robusta de modelos em diversos ambientes de hardware de computação de perifeia. As organizações que estão a expandir as suas iniciativas de visão computacional contam com estas ferramentas para colocar modelos de ponta em produção de forma fiável e eficiente.

Fusão de tokens (ToMe)

Exporte para mais de 17 formatos. Implemente em 43 regiões globais.

Treine o YOLO26 em GPUs H100 por 2,39 $/hora.

Licenciamento empresarial flexível para impulsionar os seus projetos de IA de visão.

Licenciamento empresarial concebido para impulsionar o seu próximo projeto

Etiquete até 10 vezes mais rápido com a anotação inteligente

Anotar. Treinar. Implementar. Tudo numa única plataforma.

Compreender o processo de fusão de tokens

Aplicações práticas da fusão de tokens

Python : Cálculo da similaridade entre tokens

Leia mais nesta categoria

Principais destaques da Ultralytics Hannover Messe 2026, na Alemanha

Escolher entre PyTorch TensorFlow projetos de visão computacional

Uma análise comparativa entre a aprendizagem supervisionada e a aprendizagem não supervisionada na visão computacional

Vamos construir juntos o futuro da IA!

Fusão de tokens (ToMe)

Exporte para mais de 17 formatos. Implemente em 43 regiões globais.

Treine o YOLO26 em GPUs H100 por 2,39 $/hora.

Licenciamento empresarial flexível para impulsionar os seus projetos de IA de visão.

Licenciamento empresarial concebido para impulsionar o seu próximo projeto

Etiquete até 10 vezes mais rápido com a anotação inteligente

Anotar. Treinar. Implementar. Tudo numa única plataforma.

Compreender o processo de fusão de tokens

Aplicações práticas da fusão de tokens

Python : Cálculo da similaridade entre tokens

Leia mais nesta categoria

Principais destaques da Ultralytics Hannover Messe 2026, na Alemanha

Escolher entre PyTorch TensorFlow projetos de visão computacional

Uma análise comparativa entre a aprendizagem supervisionada e a aprendizagem não supervisionada na visão computacional

Vamos construir juntos o futuro da IA!

Anotar. Treinar. Implementar. Tudo numa única plataforma.