Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Transformer

Explora la arquitectura Transformer y el mecanismo de autoatención. Descubre cómo potencian modelos de IA como RT-DETR Ultralytics para lograr una precisión superior.

Un transformador es una arquitectura de aprendizaje profundo que se basa en un mecanismo denominado autoatención para procesar datos de entrada secuenciales, como el lenguaje natural o las características visuales. Introducido originalmente por Google en el histórico artículo Attention Is All You Need, el Transformer revolucionó el campo de la inteligencia artificial (IA) al descartar las limitaciones de procesamiento secuencial de las anteriores redes neuronales recurrentes (RNN). En su lugar, los Transformers analizan secuencias completas de datos simultáneamente, lo que permite una paralelización masiva y tiempos de entrenamiento significativamente más rápidos en hardware moderno como las GPU.

Cómo funcionan los Transformers

La innovación principal del Transformer es el mecanismo de autoatención. Esto permite al modelo ponderar la importancia de las diferentes partes de los datos de entrada en relación entre sí. Por ejemplo, en una frase, el modelo puede aprender que la palabra «banco» se relaciona más estrechamente con «dinero» que con «río» basándose en el contexto que la rodea.

Esta arquitectura suele constar de dos componentes principales:

  • Codificador: procesa los datos de entrada en una representación numérica rica o incrustación.
  • Decodificador: utiliza la salida del codificador para generar el resultado final, como una frase traducida o un cuadro delimitador previsto.

En el ámbito de la visión por computadora (CV), los modelos suelen emplear una variante denominada Vision Transformer (ViT). En lugar de procesar tokens de texto, la imagen se divide en fragmentos de tamaño fijo (por ejemplo, 16x16 píxeles). Estos fragmentos se aplanan y se tratan como una secuencia, lo que permite al modelo capturar el «contexto global» —entender las relaciones entre partes distantes de una imagen— de forma más eficaz que una red neuronal convolucional (CNN) estándar .

Transformadores frente a conceptos relacionados

Es importante distinguir la arquitectura Transformer de términos relacionados:

  • Mecanismo de atención: Este es el concepto general de centrarse en partes específicas de los datos. El Transformer es una arquitectura específica construida íntegramente en torno a capas de atención, mientras que otros modelos pueden utilizar la atención solo como un pequeño complemento.
  • Modelo de lenguaje grande (LLM): Términos como «GPT» se refieren a modelos específicos entrenados con grandes cantidades de texto. Casi todos los LLM modernos utilizan la arquitectura Transformer como motor subyacente.

Aplicaciones en el mundo real

La versatilidad de los transformadores ha llevado a su adopción en diversas industrias:

  1. Imágenes médicas: En la IA aplicada a la sanidad, los transformadores se utilizan para tareas complejas como el análisis de imágenes médicas. Su capacidad para comprender las relaciones espaciales globales ayuda a detectar anomalías sutiles en resonancias magnéticas de alta resolución o tomografías computarizadas que las CNN centradas en características locales podrían pasar por alto.
  2. Sistemas autónomos: para los vehículos autónomos, es fundamental comprender la trayectoria de los peatones y otros vehículos. Los transformadores destacan en la comprensión de vídeos mediante el seguimiento de objetos a lo largo del tiempo, prediciendo movimientos futuros para garantizar una navegación segura.

Detección de objetos con transformadores

Si bien las CNN han dominado tradicionalmente la detección de objetos, los modelos basados en transformadores, como el Real-Time Detection Transformer (RT-DETR), han surgido como potentes alternativas. RT-DETR la velocidad de las estructuras básicas de las CNN con la precisión de los cabezales de decodificación de los transformadores.

Sin embargo, los modelos Transformer puros pueden ser computacionalmente pesados. Para muchas aplicaciones periféricas, los modelos híbridos altamente optimizados como YOLO26, que integran mecanismos de atención eficientes con un rápido procesamiento convolucional, ofrecen un equilibrio superior entre velocidad y precisión. Puede gestionar el entrenamiento y la implementación de estos modelos fácilmente a través de Ultralytics , que agiliza el flujo de trabajo desde la anotación del conjunto de datos hasta la exportación del modelo.

Python : Uso de RT-DETR

El siguiente ejemplo muestra cómo realizar una inferencia utilizando un modelo basado en Transformer dentro del ultralytics paquete. Este código carga un RT-DETR preentrenado y detecta objetos en una imagen.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Para obtener más información sobre los fundamentos matemáticos, PyTorch sobre capas Transformer proporciona información técnica detallada, mientras que la guía de IBM sobre Transformers ofrece una perspectiva empresarial de alto nivel .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora