Token Merging (ToMe)
Aprende cómo la fusión de tokens (ToMe) optimiza los modelos Transformer y ViT. Descubre cómo reducir los FLOP, acelerar la inferencia en tiempo real y aumentar la velocidad de la IA generativa.
Token Merging (ToMe) es una técnica de vanguardia diseñada para optimizar el rendimiento y la eficiencia de las arquitecturas Transformer reduciendo el número de tokens procesados durante las pasadas hacia adelante. Desarrollada originalmente para acelerar los modelos Vision Transformer (ViT), ToMe funciona identificando y combinando sistemáticamente los tokens redundantes dentro de la red sin necesidad de entrenamiento adicional. Dado que la complejidad computacional del mecanismo de self-attention escala cuadráticamente con el número de tokens, fusionar tokens similares reduce drásticamente las operaciones de punto flotante (FLOPs) totales, lo que permite una real-time inference significativamente más rápida.
Link to this sectionEntender el proceso de Token Merging#
ToMe es fundamentalmente diferente de la tokenization, que es el paso de preprocesamiento inicial de dividir una imagen o texto en tokens individuales. Mientras que la tokenización crea elementos discretos, el Token Merging actúa como un mecanismo de submuestreo dinámico durante la ejecución hacia adelante del modelo.
El algoritmo suele utilizar emparejamiento bipartito para evaluar la similitud de los tokens, calculando a menudo la similitud de coseno entre las claves de los tokens en las capas de atención. Los tokens que comparten información visual o semántica muy similar se fusionan, a menudo promediando sus características. Esto garantiza que se preserve la información espacial o contextual esencial mientras se elimina la carga computacional innecesaria, permitiendo que marcos como PyTorch procesen modelos de visión complejos mucho más rápido.
Link to this sectionAplicaciones reales de Token Merging#
El Token Merging se ha convertido en una estrategia de optimización crítica para desplegar arquitecturas pesadas basadas en atención en entornos con limitaciones computacionales.
-
Generative AI and Image Synthesis: En modelos populares de difusión de texto a imagen, ToMe se utiliza con frecuencia para acelerar la generación de imágenes. Al fusionar tokens de fondo o de bajo detalle, el proceso de generación requiere menos pasos, lo que ahorra enormes recursos de GPU y reduce la latencia para los usuarios finales que dependen de modelos generativos. Puedes obtener más información sobre los procesos de difusión en la investigación fundamental en arXiv.
-
Edge AI Deployments: Desplegar modelos masivos como el Segment Anything Model (SAM) en dispositivos móviles es notoriamente difícil debido a las limitaciones de memoria. ToMe ayuda a reducir la huella de memoria dinámicamente, permitiendo que tareas complejas de image segmentation se ejecuten en hardware de borde. Para escenarios donde la velocidad pura es crítica, los ingenieros suelen optar por arquitecturas optimizadas de forma nativa y sin atención como Ultralytics YOLO26 para una inferencia de borde integral más rápida.
Link to this sectionEjemplo en Python: Cálculo de similitud de tokens#
Aunque integrar ToMe en una arquitectura completa requiere modificar los bloques de atención, el concepto central se basa en encontrar tokens similares. El siguiente fragmento de PyTorch demuestra cómo se podría calcular la similitud de coseno entre un conjunto de tokens para identificar cuáles son candidatos para ser fusionados.
import torch
import torch.nn.functional as F
# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)
# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)
# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))
# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)Las canalizaciones de aprendizaje automático modernas requieren un equilibrio cuidadoso entre precisión y velocidad. Tanto si empleas Token Merging para optimizar un ViT personalizado como si confías en la eficiencia de vanguardia de YOLO26, la gestión de estos complejos flujos de trabajo de datos se simplifica enormemente mediante la Ultralytics Platform. La plataforma proporciona un ecosistema intuitivo para la data annotation automatizada, entrenamiento en la nube sin interrupciones y un despliegue sólido de modelos en diversos entornos de hardware de edge computing. Las organizaciones que escalan sus iniciativas de computer vision confían en estas herramientas para llevar modelos de vanguardia a producción de forma fiable y eficiente.






