¡Sintonice YOLO Vision 2025!
25 de septiembre de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glosario

Transformer

Descubra cómo las arquitecturas Transformer revolucionan la IA, impulsando avances en el PLN, la visión artificial y las tareas avanzadas de ML.

Un Transformer es una arquitectura de red neuronal revolucionaria que se ha convertido en la piedra angular de la Inteligencia Artificial (IA) moderna, especialmente en el Procesamiento del Lenguaje Natural (PNL) y, más recientemente, en la Visión Artificial (CV). Introducida por investigadores de Google en el artículo de 2017 "Attention Is All You Need", su principal innovación es el mecanismo de autoatención, que permite al modelo ponderar la importancia de diferentes palabras o partes de una secuencia de entrada. Esto le permite capturar dependencias de largo alcance y relaciones contextuales de manera más efectiva que las arquitecturas anteriores. El diseño también permite una paralelización masiva, lo que hace posible entrenar modelos mucho más grandes en conjuntos de datos masivos, lo que lleva al auge de los Modelos de Lenguaje Grandes (LLM).

Cómo funcionan los Transformers

A diferencia de los modelos secuenciales como las Redes Neuronales Recurrentes (RNNs), los Transformers procesan secuencias enteras de datos a la vez. La idea central es manejar todos los elementos en paralelo, lo que acelera significativamente el entrenamiento en hardware moderno como las GPUs.

Para comprender el orden de la secuencia sin recurrencia, los Transformers utilizan una técnica llamada codificación posicional, que añade información sobre la posición de cada elemento (por ejemplo, una palabra en una frase) a su embedding. Las capas de autoatención procesan entonces estos embeddings, permitiendo que cada elemento "mire" a todos los demás elementos de la secuencia y determine cuáles son más relevantes para comprender su significado. Esta conciencia del contexto global es una gran ventaja para tareas complejas. Frameworks como PyTorch y TensorFlow proporcionan un amplio soporte para la construcción de modelos basados en Transformer.

Aplicaciones de los Transformers

El impacto de los Transformers abarca numerosos dominios, impulsando el progreso tanto en tareas de lenguaje como de visión.

  1. Traducción y generación de lenguaje: Servicios como Google Translate utilizan modelos basados en Transformer para una traducción automática de alta calidad. El modelo puede considerar toda la oración de origen para producir una traducción más fluida y precisa. De manera similar, modelos como GPT-4 sobresalen en la generación de texto al comprender el contexto para crear párrafos coherentes, escribir artículos o potenciar chatbots avanzados.
  2. Visión artificial: El Vision Transformer (ViT) adapta la arquitectura para tareas basadas en imágenes. Trata una imagen como una secuencia de parches y utiliza la autoatención para modelar las relaciones entre ellos. Este enfoque se utiliza en modelos como RT-DETR para la detección de objetos, donde la comprensión del contexto global de una escena puede ayudar a identificar objetos con mayor precisión, especialmente en entornos desordenados. Puede ver una comparación de RT-DETR y YOLOv8 para comprender sus diferencias arquitectónicas.

Transformer vs. Otras arquitecturas

Es útil distinguir los Transformers de otras arquitecturas de redes neuronales comunes:

  • Transformers vs. RNNs: Las RNN procesan los datos secuencialmente, lo que las hace inherentemente lentas y susceptibles al problema del desvanecimiento del gradiente, lo que hace que olviden la información anterior en secuencias largas. Los Transformers superan esto con el procesamiento paralelo y la autoatención, capturando dependencias de largo alcance de manera mucho más efectiva.
  • Transformers vs. CNNs: Las Redes Neuronales Convolucionales (CNNs) son altamente eficientes para tareas de visión, utilizando filtros convolucionales para identificar patrones locales en datos tipo cuadrícula como píxeles. Son la base de modelos como la familia Ultralytics YOLO. Los Transformers, en contraste, capturan relaciones globales pero a menudo requieren más datos y recursos computacionales. Los modelos híbridos, que combinan un backbone CNN con capas Transformer, tienen como objetivo obtener lo mejor de ambos mundos.

Variantes eficientes de Transformer

El coste computacional de la autoatención completa del Transformer original crece cuadráticamente con la longitud de la secuencia, lo que dificulta el manejo de secuencias muy largas. Esto ha llevado al desarrollo de variantes más eficientes.

  • Longformer: Utiliza un mecanismo de atención de ventana deslizante combinado con atención global en tokens específicos para reducir la complejidad computacional.
  • Reformer: Emplea técnicas como el hashing sensible a la localidad para aproximar la atención completa, haciéndolo más eficiente en cuanto a memoria.
  • Transformer-XL: Introduce un mecanismo de recurrencia que permite al modelo aprender dependencias más allá de una longitud fija, lo que es particularmente útil para el modelado de lenguaje auto-regresivo.

Estos avances continúan expandiendo la aplicabilidad de los Transformers a nuevos problemas. Herramientas y plataformas como Hugging Face y Ultralytics HUB facilitan a los desarrolladores el acceso y la implementación de estos potentes modelos.

Únete a la comunidad de Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora
Enlace copiado al portapapeles