Glosario

Transformer-XL

Descubra cómo Transformer-XL revoluciona el modelado de secuencias con innovaciones como la recurrencia a nivel de segmento y el manejo de contextos de largo alcance.

Transformer-XL (Transformer-Extra Long) representa un avance significativo con respecto a la arquitectura Transformer original, diseñado principalmente para manejar con mayor eficacia las dependencias de largo alcance en datos secuenciales. Desarrollado por investigadores de Google AI y la Universidad Carnegie Mellon, aborda la limitación de fragmentación del contexto inherente a los Transformers estándar cuando se procesan secuencias muy largas, lo que resulta crucial para tareas de Procesamiento del Lenguaje Natural (PLN) y otras. A diferencia de los Transformers estándar, que procesan segmentos de longitud fija de forma independiente, Transformer-XL introduce mecanismos para reutilizar la información entre segmentos, lo que permite al modelo construir una comprensión coherente de contextos mucho más largos.

Conceptos básicos de Transformer-XL

Transformer-XL introduce dos innovaciones clave para superar las limitaciones de los transformadores estándar cuando se trata de secuencias largas:

  1. Recurrencia a nivel de segmento: Los transformadores estándar procesan secuencias largas dividiéndolas en segmentos de tamaño fijo. Sin embargo, la información no puede fluir entre estos segmentos, lo que provoca la fragmentación del contexto. Transformer-XL introduce un mecanismo de recurrencia en el que los estados ocultos calculados para un segmento anterior se almacenan en caché y se reutilizan como contexto al procesar el segmento actual. Esto permite que la información se propague a través de los segmentos, creando un contexto efectivo mucho más allá de la longitud de un único segmento. Este mecanismo es conceptualmente similar a la forma en que las redes neuronales recurrentes (RNN) mantienen el estado, pero integrado en el marco de autoatención de Transformer.
  2. Codificaciones posicionales relativas: El Transformer original utiliza codificaciones posicionales absolutas para informar al modelo sobre la posición de los tokens dentro de una secuencia. Cuando se aplica la recurrencia a nivel de segmento, la reutilización de codificaciones absolutas se vuelve problemática ya que el mismo índice de posición aparecería en diferentes segmentos, causando ambigüedad. Transformer-XL emplea codificaciones posicionales relativas, que definen las posiciones en función de la distancia entre los tokens y no de su ubicación absoluta. Esto hace que la información posicional sea coherente en los distintos segmentos y permite que el modelo se generalice mejor a las distintas longitudes de secuencia durante la inferencia.

Cómo funciona Transformer-XL

Durante el entrenamiento y la inferencia, Transformer-XL procesa las secuencias de entrada segmento a segmento. Para cada nuevo segmento, calcula las puntuaciones de atención no sólo basándose en los tokens de ese segmento, sino también utilizando los estados ocultos almacenados en caché de los segmentos anteriores. Esta información en caché proporciona un contexto histórico. El uso de codificaciones posicionales relativas garantiza que el mecanismo de atención interpreta correctamente las posiciones relativas de las señales, incluso cuando se atiende a señales del segmento anterior almacenado en caché. Este enfoque aumenta significativamente la longitud máxima posible de la dependencia que el modelo puede capturar, a menudo mucho mayor que la propia longitud del segmento, al tiempo que mantiene la eficiencia computacional en comparación con el procesamiento de toda la secuencia a la vez con un Transformador estándar. Este método ayuda a evitar problemas como el de la desaparición del gradiente en relaciones largas.

Transformer-XL vs. Transformador estándar y modelos relacionados

La principal diferencia radica en la gestión de la longitud de la secuencia y el contexto:

  • Longitud de contexto: Los Transformers estándar tienen una longitud de contexto máxima fija determinada por el tamaño del segmento. Transformer-XL puede capturar dependencias potencialmente de miles de tokens de longitud debido a su mecanismo de recurrencia.
  • Cálculo: Transformer-XL puede ser significativamente más rápido que los Transformers estándar durante la evaluación de secuencias largas porque se reutilizan los cálculos de segmentos anteriores.
  • Memoria: El almacenamiento en caché de los estados ocultos requiere memoria adicional, pero evita volver a calcular las representaciones de las partes anteriores de la secuencia.
  • Modelos relacionados: Aunque modelos como BERT y GPT (Generative Pre-trained Transformer) también se basan en la arquitectura Transformer, suelen utilizar el enfoque estándar de contexto de longitud fija. Transformer-XL se centra específicamente en la limitación de los contextos largos. Otros modelos, como Longformer y Reformer, también se ocupan de las secuencias largas, pero utilizan técnicas diferentes, como patrones de atención dispersos o hashing sensible a la localidad.

Pertinencia y aplicaciones

La capacidad de Transformer-XL para modelar dependencias de largo alcance lo hace muy eficaz para diversas tareas secuenciales, especialmente en PNL.

  • Modelado del lenguaje: Ha obtenido los mejores resultados en pruebas de modelado lingüístico a nivel de caracteres y palabras como enwik8 y WikiText-103 al capturar un contexto más amplio que los modelos anteriores. Esta mejor comprensión de la estructura del lenguaje es vital para generar textos coherentes y contextualmente relevantes.
  • Procesamiento de documentos largos: Las tareas que involucran documentos largos, tales como el resumen(Text Summarization), la respuesta a preguntas sobre artículos extensos, o el análisis de libros enteros o bases de código, se benefician significativamente de la ventana de contexto extendida de Transformer-XL. Por ejemplo, un modelo Transformer-XL podría potencialmente generar historias ficticias de capítulos largos o escribir extensos módulos de software(Generación de Texto).
  • Aprendizaje por refuerzo: Sus capacidades de memoria mejoradas también han encontrado aplicaciones en tareas de aprendizaje por ref uerzo que requieren planificación a largo plazo.

Aunque Transformer-XL es conocido sobre todo en el campo de la PLN, los principios que rigen el tratamiento eficaz de secuencias largas son relevantes para el aprendizaje automático (AM) e influyen potencialmente en las arquitecturas de análisis de series temporales o incluso en aspectos de la visión por ordenador (VC ) relacionados con los datos de vídeo. Las innovaciones arquitectónicas suelen cruzarse; por ejemplo, los propios transformadores inspiraron los transformadores de visión (ViT) utilizados en el análisis de imágenes. Plataformas como Hugging Face albergan implementaciones y modelos preentrenados, lo que facilita la investigación y el desarrollo de aplicaciones. Puede consultar la investigación original en el artículo "Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context". La comprensión de estas arquitecturas avanzadas contribuye al desarrollo y perfeccionamiento de modelos en diversos ámbitos, incluidos los gestionados y desplegados a través de plataformas como Ultralytics HUB.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles