Conoce YOLO26: IA de visión de nueva generación.
Ultralytics
Volver al glosario de Ultralytics

Transformer

Explora la arquitectura Transformer y el mecanismo de autoatención. Aprende cómo potencian modelos de IA como RT-DETR y Ultralytics YOLO26 para una precisión superior.

Un Transformer es una arquitectura de aprendizaje profundo que se basa en un mecanismo llamado autoatención para procesar datos de entrada secuenciales, como el lenguaje natural o características visuales. Presentado originalmente por investigadores de Google en el innovador artículo Attention Is All You Need, el Transformer revolucionó el campo de la inteligencia artificial (IA) al descartar las limitaciones de procesamiento secuencial de las redes neuronales recurrentes (RNN) anteriores. En su lugar, los Transformers analizan secuencias completas de datos simultáneamente, lo que permite una paralelización masiva y tiempos de entrenamiento significativamente más rápidos en hardware moderno como las GPU.

Link to this sectionCómo funcionan los Transformers#

La innovación principal del Transformer es el mecanismo de autoatención. Esto permite que el modelo pondere la importancia de diferentes partes de los datos de entrada en relación con las demás. Por ejemplo, en una frase, el modelo puede aprender que la palabra "banco" se relaciona más estrechamente con "dinero" que con "río" basándose en el contexto circundante.

Esta arquitectura generalmente consta de dos componentes principales:

  • Codificador (Encoder): Procesa los datos de entrada para convertirlos en una representación numérica enriquecida o embedding.
  • Decodificador (Decoder): Utiliza la salida del codificador para generar el resultado final, como una frase traducida o un cuadro delimitador predicho.

En el ámbito de la visión artificial (CV), los modelos suelen emplear una variación llamada Vision Transformer (ViT). En lugar de procesar tokens de texto, la imagen se divide en parches de tamaño fijo (por ejemplo, 16x16 píxeles). Estos parches se aplanan y se tratan como una secuencia, lo que permite que el modelo capture el "contexto global" —entendiendo las relaciones entre partes distantes de una imagen— de forma más eficaz que una red neuronal convolucional (CNN) estándar.

Link to this sectionTransformers frente a conceptos relacionados#

Es importante distinguir la arquitectura Transformer de los términos relacionados:

  • Mecanismo de atención: Este es el concepto general de centrarse en partes específicas de los datos. El Transformer es una arquitectura específica construida completamente alrededor de capas de atención, mientras que otros modelos podrían usar la atención solo como un pequeño complemento.
  • Modelo de lenguaje grande (LLM): Términos como "GPT" se refieren a modelos específicos entrenados con grandes cantidades de texto. Casi todos los LLM modernos utilizan la arquitectura Transformer como su motor subyacente.

Link to this sectionAplicaciones en el mundo real#

La versatilidad de los Transformers ha llevado a su adopción en diversos sectores:

  1. Imagenología médica: En la IA en el cuidado de la salud, los Transformers se utilizan para tareas complejas como el análisis de imágenes médicas. Su capacidad para entender las relaciones espaciales globales ayuda a detectar anomalías sutiles en escaneos de alta resolución como resonancias magnéticas o tomografías computarizadas que las CNN enfocadas en características locales podrían pasar por alto.

  2. Sistemas autónomos: Para los vehículos autónomos, entender la trayectoria de los peatones y otros vehículos es fundamental. Los Transformers destacan en la comprensión de vídeo al rastrear objetos a través de los fotogramas, prediciendo movimientos futuros para garantizar una navegación segura.

Link to this sectionDetección de objetos con Transformers#

Aunque las CNN han dominado tradicionalmente la detección de objetos, los modelos basados en Transformer como el Real-Time Detection Transformer (RT-DETR) han surgido como alternativas potentes. RT-DETR combina la velocidad de las estructuras (backbones) de las CNN con la precisión de los cabezales de decodificación de los Transformers.

Sin embargo, los modelos Transformer puros pueden ser computacionalmente pesados. Para muchas aplicaciones de borde (edge), modelos híbridos altamente optimizados como YOLO26 —que integran mecanismos de atención eficientes con un rápido procesamiento convolucional— ofrecen un equilibrio superior entre velocidad y precisión. Puedes gestionar el entrenamiento y el despliegue de estos modelos fácilmente a través de Ultralytics Platform, que optimiza el flujo de trabajo desde la anotación de conjuntos de datos hasta la exportación del modelo.

Link to this sectionEjemplo en Python: Uso de RT-DETR#

El siguiente ejemplo demuestra cómo realizar inferencias utilizando un modelo basado en Transformer dentro del paquete ultralytics. Este código carga un modelo RT-DETR preentrenado y detecta objetos en una imagen.

from ultralytics import RTDETR

# Load a pre-trained Real-Time Detection Transformer (RT-DETR) model
model = RTDETR("rtdetr-l.pt")

# Run inference on an image URL
# The model uses self-attention to identify objects with high accuracy
results = model("https://ultralytics.com/images/bus.jpg")

# Display the detection results with bounding boxes
results[0].show()

Para profundizar en los fundamentos matemáticos, la documentación de PyTorch sobre capas Transformer ofrece profundidad técnica, mientras que la guía de IBM sobre Transformers ofrece una perspectiva empresarial de alto nivel.

Explore solutions

Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información
Real-time AI that works with your team

IA en robótica

Potencia máquinas más inteligentes con modelos Ultralytics YOLO. La IA de visión en robótica impulsa la navegación autónoma, la percepción, el seguimiento de objetos y el control en tiempo real.

Más información
Real-time AI that works with your team

IA en logística

Optimiza la logística con los modelos de Ultralytics YOLO. La visión artificial por IA permite la inspección de paquetes, clasificación, seguimiento de vehículos y monitoreo de seguridad en almacenes en tiempo real.

Más información
Real-time AI that works with your team

IA en el sector minorista

Reimagina el comercio minorista con los modelos de Ultralytics YOLO. La visión artificial por IA potencia el seguimiento de inventario, el monitoreo de estantes, la gestión de colas y mejores perspectivas sobre los clientes.

Más información
Real-time AI that works with your team

IA en la atención sanitaria

Crea soluciones de salud con los modelos de Ultralytics YOLO. La IA de visión en la sanidad potencia imágenes médicas más rápidas, diagnósticos más inteligentes y supervisión de pacientes.

Más información
Real-time AI that works with your team

IA en la fabricación

Optimiza la fabricación con los modelos de Ultralytics YOLO. La visión artificial por IA impulsa el control de calidad, la detección de defectos, el cumplimiento del uso de PPE y la automatización de la línea de montaje.

Más información
Real-time AI that works with your operation

IA en automoción

Aplica la visión artificial en el sector automotriz con los modelos de Ultralytics YOLO. La IA de visión mejora la seguridad vial, la asistencia al conductor y la automatización de vehículos para carreteras más inteligentes.

Más información
Real-time AI tailored to your operation

IA en agricultura

Lleva la visión artificial a la agricultura inteligente con los modelos de Ultralytics YOLO. Potencia el seguimiento de cultivos, el control del ganado y la agricultura de precisión para obtener rendimientos mayores y más inteligentes.

Más información

¡Construyamos juntos el futuro de la IA!

Comienza tu viaje con el futuro del aprendizaje automático