Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Token Merging (ToMe)

Aprende cómo la fusión de tokens (ToMe) optimiza los modelos Transformer y ViT. Descubre cómo reducir los FLOP, acelerar la inferencia en tiempo real y aumentar la velocidad de la IA generativa.

Token Merging (ToMe) es una técnica de vanguardia diseñada para optimizar el rendimiento y la eficiencia de las arquitecturas Transformer reduciendo el número de tokens procesados durante las pasadas hacia adelante. Desarrollada originalmente para acelerar los modelos Vision Transformer (ViT), ToMe funciona identificando y combinando sistemáticamente los tokens redundantes dentro de la red sin necesidad de entrenamiento adicional. Dado que la complejidad computacional del mecanismo de self-attention escala cuadráticamente con el número de tokens, fusionar tokens similares reduce drásticamente las operaciones de punto flotante (FLOPs) totales, lo que permite una real-time inference significativamente más rápida.

Link to this sectionEntender el proceso de Token Merging#

ToMe es fundamentalmente diferente de la tokenization, que es el paso de preprocesamiento inicial de dividir una imagen o texto en tokens individuales. Mientras que la tokenización crea elementos discretos, el Token Merging actúa como un mecanismo de submuestreo dinámico durante la ejecución hacia adelante del modelo.

El algoritmo suele utilizar emparejamiento bipartito para evaluar la similitud de los tokens, calculando a menudo la similitud de coseno entre las claves de los tokens en las capas de atención. Los tokens que comparten información visual o semántica muy similar se fusionan, a menudo promediando sus características. Esto garantiza que se preserve la información espacial o contextual esencial mientras se elimina la carga computacional innecesaria, permitiendo que marcos como PyTorch procesen modelos de visión complejos mucho más rápido.

Link to this sectionAplicaciones reales de Token Merging#

El Token Merging se ha convertido en una estrategia de optimización crítica para desplegar arquitecturas pesadas basadas en atención en entornos con limitaciones computacionales.

  1. Generative AI and Image Synthesis: En modelos populares de difusión de texto a imagen, ToMe se utiliza con frecuencia para acelerar la generación de imágenes. Al fusionar tokens de fondo o de bajo detalle, el proceso de generación requiere menos pasos, lo que ahorra enormes recursos de GPU y reduce la latencia para los usuarios finales que dependen de modelos generativos. Puedes obtener más información sobre los procesos de difusión en la investigación fundamental en arXiv.

  2. Edge AI Deployments: Desplegar modelos masivos como el Segment Anything Model (SAM) en dispositivos móviles es notoriamente difícil debido a las limitaciones de memoria. ToMe ayuda a reducir la huella de memoria dinámicamente, permitiendo que tareas complejas de image segmentation se ejecuten en hardware de borde. Para escenarios donde la velocidad pura es crítica, los ingenieros suelen optar por arquitecturas optimizadas de forma nativa y sin atención como Ultralytics YOLO26 para una inferencia de borde integral más rápida.

Link to this sectionEjemplo en Python: Cálculo de similitud de tokens#

Aunque integrar ToMe en una arquitectura completa requiere modificar los bloques de atención, el concepto central se basa en encontrar tokens similares. El siguiente fragmento de PyTorch demuestra cómo se podría calcular la similitud de coseno entre un conjunto de tokens para identificar cuáles son candidatos para ser fusionados.

import torch
import torch.nn.functional as F

# Simulate a batch of 4 image patches (tokens) with 64-dimensional features
tokens = torch.randn(1, 4, 64)

# Normalize the tokens to easily compute cosine similarity via dot product
normalized_tokens = F.normalize(tokens, p=2, dim=-1)

# Compute the similarity matrix between all tokens (1 x 4 x 4)
similarity_matrix = torch.matmul(normalized_tokens, normalized_tokens.transpose(1, 2))

# Tokens with high similarity scores (close to 1.0) off the diagonal
# are prime candidates for Token Merging.
print("Similarity Matrix:", similarity_matrix)

Las canalizaciones de aprendizaje automático modernas requieren un equilibrio cuidadoso entre precisión y velocidad. Tanto si empleas Token Merging para optimizar un ViT personalizado como si confías en la eficiencia de vanguardia de YOLO26, la gestión de estos complejos flujos de trabajo de datos se simplifica enormemente mediante la Ultralytics Platform. La plataforma proporciona un ecosistema intuitivo para la data annotation automatizada, entrenamiento en la nube sin interrupciones y un despliegue sólido de modelos en diversos entornos de hardware de edge computing. Las organizaciones que escalan sus iniciativas de computer vision confían en estas herramientas para llevar modelos de vanguardia a producción de forma fiable y eficiente.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático