Glosario

Transformer-XL

Descubra cómo Transformer-XL revoluciona el modelado de secuencias con innovaciones como la recurrencia a nivel de segmento y el manejo de contexto de largo alcance.

Transformer-XL, o "Transformer-Extra Long", es una sofisticada arquitectura de red neuronal diseñada para uno de los retos más persistentes de la inteligencia artificial (IA): procesar secuencias de datos que superan una longitud fija. Desarrollado por investigadores de Google AI y la Universidad Carnegie Mellon, esta arquitectura arquitectura mejora el Transformer original introduciendo un novedoso mecanismo de recurrencia. Esta innovación permite que el modelo retenga información en distintos segmentos de datos, ampliando significativamente su ventana de contexto efectiva sin la enorme computacional asociada al procesamiento de entradas largas.

Mejora del modelado de secuencias

Para comprender la importancia de Transformer-XL, conviene fijarse en las limitaciones de sus predecesores. Estándar Los transformadores procesan los datos en trozos de tamaño fijo (segmentos) de forma independiente. Esto conduce a la "fragmentación fragmentación", en la que el modelo olvida la información en cuanto pasa de un segmento al siguiente. Transformer-XL lo supera incorporando la recurrencia a nivel de segmento, un concepto tomado de las redes neuronales recurrentes (RNR). Redes Neuronales Recurrentes (RNNs) pero pero aplicado en el marco paralelizable de los Transformers.

La arquitectura se basa en dos contribuciones técnicas principales:

Recurrencia a nivel de segmento: El modelo almacena en caché los estados ocultos (memoria) del segmento anterior y los reutiliza como contexto ampliado para el segmento actual. reutiliza como contexto ampliado para el segmento actual. Esto permite que la información fluya continuamente por las capas de aprendizaje profundo, lo que permite al modelo modelar dependencias que son cientos de veces más largas que los Transformers estándar.
Codificaciones posicionales relativas: En los modelos estándar, a los tokens se les asignan coordenadas absolutas (p. ej, posición 1, posición 2). Sin embargo, cuando se reutilizan segmentos de memoria, el posicionamiento absoluto crea confusión (ya que el primer token de un nuevo segmento sería idéntico al primer token del antiguo). Transformer-XL resuelve este problema la distancia relativa entre los tokens en el mecanismo de atención. mecanismo de atención, lo que garantiza que el modelo comprenda el orden de la secuencia independientemente de los límites del segmento.

Aplicaciones en el mundo real

La capacidad de mantener la memoria a largo plazo hace que Transformer-XL sea muy valioso para tareas que requieren un contexto extenso.

Generación de textos largos: En procesamiento del lenguaje natural (PLN), mantener la coherencia narrativa es difícil. Transformer-XL sobresale en generación de texto para la escritura creativa, como novelas o guiones, donde el modelo debe recordar un personaje introducido en el primer capítulo para tomar decisiones lógicas en el décimo capítulo. decisiones lógicas en el décimo capítulo.
Análisis de series temporales financieras: Los mercados financieros funcionan como largas secuencias de datos en las que tendencias históricas de meses atrás influyen en los precios actuales. Transformer-XL se utiliza en análisis de series temporales y modelos predictivos para predecir los movimientos de las acciones mediante el análisis de las dependencias a largo plazo en la historia de los precios. diarias.
Análisis de secuencias genómicas: En bioinformática, las cadenas de ADN son efectivamente secuencias extremadamente largas de caracteres. Los investigadores utilizan arquitecturas como Transformer-XL para analizar secuencias genéticas con fines de reconocimiento de patrones y reconocimiento de patrones y detección de anomalías.

Concepto de aplicación

Mientras que Ultralytics se centra principalmente en visión por ordenador (CV) con modelos como YOLO11, comprender el mecanismo de almacenamiento en caché de Transformer-XL es útil para la ingeniería avanzada de ML. El siguiente PyTorch snippet demuestra el concepto de pasar un tensor de tensor de "memoria" durante un pase hacia adelante para retener el contexto.

import torch


def forward_pass_with_memory(input_segment, memory=None):
    """Conceptual demonstration of passing memory (cached states) simulating the Transformer-XL recurrence mechanism.
    """
    # If memory exists from the previous segment, concatenate it
    if memory is not None:
        # Combine memory with current input along the sequence dimension
        context = torch.cat([memory, input_segment], dim=1)
    else:
        context = input_segment

    # Simulation of processing (in a real model, this goes through layers)
    output = context * 0.5  # Dummy operation

    # Detach current output to create memory for the NEXT segment
    # This prevents gradient backpropagation into the deep history
    new_memory = output.detach()

    return output, new_memory


# Run a dummy example
segment1 = torch.randn(1, 10)  # Batch size 1, sequence length 10
output1, mems = forward_pass_with_memory(segment1)
print(f"Memory cached shape: {mems.shape}")

Transformer-XL frente a arquitecturas relacionadas

Diferenciar Transformer-XL de términos similares ayuda a aclarar su caso de uso específico:

frente a un transformador estándar: El modelo estándar modelo estándar restablece su estado después de cada segmento, limitando su "memoria" a la longitud del segmento (p. ej, 512 tokens). Transformer-XL transporta la memoria hacia adelante, lo que teóricamente permite un contexto de retrospección infinito, limitado únicamente por los recursos de memoria.
vs. BERT: BERT está diseñado para comprensión del lenguaje natural (NLU) utilizando la atención bidireccional (observando simultáneamente palabras pasadas y futuras), pero no es adecuado para la generación. Transformer-XL es un modelo autorregresivo, lo que significa que genera datos secuencialmente, por lo que es mejor para crear contenido.
frente a Longformer: Longformer aborda secuencias largas utilizando un patrón de atención disperso (mirando sólo unas pocas palabras a la vez) para reducir el coste computacional. computacional. En cambio, Transformer-XL utiliza la recurrencia. Longformer suele ser mejor para leer un documento masivo de una sola vez. una vez, mientras que Transformer-XL es superior para el flujo de datos o la generación de secuencias largas paso a paso.

Para los investigadores y desarrolladores que trabajan con datos secuenciales, el estudio del Transformer-XL proporciona una visión más profunda de la gestión de memoria en grandes modelos lingüísticos (LLM). El uso eficiente de la memoria en de memoria es un principio que también se aplica a la optimización de modelos de visión para su despliegue en dispositivos periféricos que utilizan GPU.

Transformer-XL

Entrena modelos Ultralytics YOLO para optimizar los flujos de trabajo en todas las industrias

Solución de licencias empresariales flexible para impulsar su innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Mejora del modelado de secuencias

Aplicaciones en el mundo real

Concepto de aplicación

Transformer-XL frente a arquitecturas relacionadas

Leer más en esta categoría

Por qué las empresas deberían dejar de ignorar la visión por ordenador

Lo más destacado de Ultralytics en la Maker Faire Shenzhen 2025

Cómo clasificar eficazmente la colada utilizando los modelos YOLO de Ultralytics

Únete a la comunidad de Ultralytics