Transformer
Explora la arquitectura Transformer y el mecanismo de autoatención. Aprende cómo potencian modelos de IA como RT-DETR y Ultralytics YOLO26 para una precisión superior.
Un Transformer es una arquitectura de aprendizaje profundo que se basa en un mecanismo llamado autoatención para procesar datos de entrada secuenciales, como el lenguaje natural o características visuales. Presentado originalmente por investigadores de Google en el innovador artículo Attention Is All You Need, el Transformer revolucionó el campo de la inteligencia artificial (IA) al descartar las limitaciones de procesamiento secuencial de las redes neuronales recurrentes (RNN) anteriores. En su lugar, los Transformers analizan secuencias completas de datos simultáneamente, lo que permite una paralelización masiva y tiempos de entrenamiento significativamente más rápidos en hardware moderno como las GPU.
Link to this sectionCómo funcionan los Transformers#
La innovación principal del Transformer es el mecanismo de autoatención. Esto permite que el modelo pondere la importancia de diferentes partes de los datos de entrada en relación con las demás. Por ejemplo, en una frase, el modelo puede aprender que la palabra "banco" se relaciona más estrechamente con "dinero" que con "río" basándose en el contexto circundante.
Esta arquitectura generalmente consta de dos componentes principales:
- Codificador (Encoder): Procesa los datos de entrada para convertirlos en una representación numérica enriquecida o embedding.
- Decodificador (Decoder): Utiliza la salida del codificador para generar el resultado final, como una frase traducida o un cuadro delimitador predicho.
En el ámbito de la visión artificial (CV), los modelos suelen emplear una variación llamada Vision Transformer (ViT). En lugar de procesar tokens de texto, la imagen se divide en parches de tamaño fijo (por ejemplo, 16x16 píxeles). Estos parches se aplanan y se tratan como una secuencia, lo que permite que el modelo capture el "contexto global" —entendiendo las relaciones entre partes distantes de una imagen— de forma más eficaz que una red neuronal convolucional (CNN) estándar.
Link to this sectionTransformers frente a conceptos relacionados#
Es importante distinguir la arquitectura Transformer de los términos relacionados:
- Mecanismo de atención: Este es el concepto general de centrarse en partes específicas de los datos. El Transformer es una arquitectura específica construida completamente alrededor de capas de atención, mientras que otros modelos podrían usar la atención solo como un pequeño complemento.
- Modelo de lenguaje grande (LLM): Términos como "GPT" se refieren a modelos específicos entrenados con grandes cantidades de texto. Casi todos los LLM modernos utilizan la arquitectura Transformer como su motor subyacente.
Link to this sectionAplicaciones en el mundo real#
La versatilidad de los Transformers ha llevado a su adopción en diversos sectores:
-
Imagenología médica: En la IA en el cuidado de la salud, los Transformers se utilizan para tareas complejas como el análisis de imágenes médicas. Su capacidad para entender las relaciones espaciales globales ayuda a detectar anomalías sutiles en escaneos de alta resolución como resonancias magnéticas o tomografías computarizadas que las CNN enfocadas en características locales podrían pasar por alto.
-
Sistemas autónomos: Para los vehículos autónomos, entender la trayectoria de los peatones y otros vehículos es fundamental. Los Transformers destacan en la comprensión de vídeo al rastrear objetos a través de los fotogramas, prediciendo movimientos futuros para garantizar una navegación segura.
Link to this sectionDetección de objetos con Transformers#
Aunque las CNN han dominado tradicionalmente la detección de objetos, los modelos basados en Transformer como el Real-Time Detection Transformer (RT-DETR) han surgido como alternativas potentes. RT-DETR combina la velocidad de las estructuras (backbones) de las CNN con la precisión de los cabezales de decodificación de los Transformers.
Sin embargo, los modelos Transformer puros pueden ser computacionalmente pesados. Para muchas aplicaciones de borde (edge), modelos híbridos altamente optimizados como YOLO26 —que integran mecanismos de atención eficientes con un rápido procesamiento convolucional— ofrecen un equilibrio superior entre velocidad y precisión. Puedes gestionar el entrenamiento y el despliegue de estos modelos fácilmente a través de Ultralytics Platform, que optimiza el flujo de trabajo desde la anotación de conjuntos de datos hasta la exportación del modelo.
Link to this sectionEjemplo en Python: Uso de RT-DETR#
El siguiente ejemplo demuestra cómo realizar inferencias utilizando un modelo basado en Transformer dentro del paquete ultralytics. Este código carga un modelo RT-DETR preentrenado y detecta objetos en una imagen.
from ultralytics import RTDETR
# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")
# Display the detection results with bounding boxes
results[0].show()Para profundizar en los fundamentos matemáticos, la documentación de PyTorch sobre capas Transformer ofrece profundidad técnica, mientras que la guía de IBM sobre Transformers ofrece una perspectiva empresarial de alto nivel.






