Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Transformer-XL

Explora o Transformer-XL e a sua recorrência ao nível de segmento. Aprende como esta arquitetura resolve o problema de contexto fixo para dependências de longo alcance em modelos de IA.

Transformer-XL (Transformer-Extra Long) é uma arquitetura de rede neural especializada projetada para abordar uma limitação crítica em modelos Transformer padrão: a capacidade de lidar com dependências de longo alcance em dados sequenciais. Introduzida por pesquisadores do Google AI, esta arquitetura permite que modelos de linguagem olhem muito além das janelas de contexto de comprimento fixo que restringem abordagens tradicionais como o BERT ou o Transformer original. Ao introduzir um mecanismo de recorrência em nível de segmento e um esquema de codificação posicional inovador, o Transformer-XL pode processar sequências extremamente longas de texto sem perder o contexto, tornando-se um conceito fundamental para modernos Grandes Modelos de Linguagem (LLMs) e aplicações de IA generativa.

Link to this sectionSuperando Limitações de Contexto#

A principal motivação por trás do Transformer-XL é o "problema do contexto fixo". Transformers padrão processam dados em segmentos de tamanho fixo (por exemplo, 512 tokens). A informação tipicamente não flui através desses segmentos, o que significa que o modelo esquece o que aconteceu no segmento anterior. Isso quebra a coerência em documentos longos.

O Transformer-XL resolve isso usando duas inovações principais:

  1. Recorrência em Nível de Segmento: Ao contrário de um Transformer vanilla que processa cada segmento de forma independente, o Transformer-XL armazena em cache os estados ocultos do segmento anterior na memória. Ao processar o segmento atual, o modelo pode considerar esses estados armazenados. Isso conecta efetivamente os segmentos, permitindo que a informação se propague por distâncias muito maiores, de forma um tanto semelhante a uma Rede Neural Recorrente (RNN), mas com os benefícios de paralelização dos mecanismos de atenção.

  2. Codificação Posicional Relativa: Como o mecanismo de recorrência reutiliza estados de segmentos anteriores, as codificações posicionais absolutas padrão (que atribuem um ID único a cada posição) ficariam confusas. O Transformer-XL usa codificação relativa, que ajuda o modelo a entender a distância entre tokens (por exemplo, "a palavra A está 5 passos antes da palavra B") em vez de sua posição absoluta no documento.

Esta arquitetura melhora significativamente as pontuações de perplexidade em tarefas de modelagem de linguagem em comparação com predecessores como RNNs e Transformers padrão.

Link to this sectionDistinção de Transformers Padrão#

É útil distinguir o Transformer-XL do Vision Transformer (ViT) padrão ou de Transformers de texto. Enquanto um Transformer padrão redefine seu estado após cada segmento, causando "fragmentação de contexto", o Transformer-XL mantém uma memória de ativações passadas. Isso permite modelar dependências que são centenas de vezes mais longas do que modelos de contexto fixo. Isso é particularmente crucial para tarefas que exigem um profundo processamento de linguagem natural (NLU), onde a resposta para uma pergunta pode estar a parágrafos de distância da consulta.

Link to this sectionAplicações no Mundo Real#

A capacidade de manter o contexto de longo prazo torna o Transformer-XL valioso em várias áreas de alto impacto:

  • Geração de Texto Longo: Em aplicações de geração de texto, como escrever romances ou gerar relatórios extensos, manter a consistência temática é difícil. O Transformer-XL permite que a IA lembre nomes de personagens, pontos da trama ou definições técnicas introduzidas no início do texto, garantindo que o resultado permaneça coerente do início ao fim.
  • Análise de Sequência de DNA: A arquitetura não se limita à linguagem humana. Em bioinformática, pesquisadores usam variações do Transformer-XL para analisar longas cadeias de DNA. Entender as relações entre sequências genéticas distantes ajuda a identificar marcadores genéticos e prever estruturas de proteínas, de forma semelhante a como a IA na saúde auxilia na análise de imagens médicas.
  • Chatbots e Assistentes Virtuais: Chatbots modernos precisam lembrar preferências do usuário e detalhes mencionados no início de uma conversa. Os mecanismos do Transformer-XL ajudam a estender a janela de contexto, evitando a experiência frustrante em que um assistente esquece o tópico discutido há apenas alguns minutos.

Link to this sectionMemória e Eficiência#

Embora o Transformer-XL ofereça desempenho superior em sequências longas, ele introduz considerações específicas de memória. Armazenar estados ocultos em cache requer memória GPU adicional, o que pode impactar a latência de inferência se não for gerenciado corretamente. No entanto, para aplicações onde a precisão em contextos longos é fundamental, a compensação geralmente é justificada.

Modelos modernos de detecção de objetos como o YOLO26 focam em velocidade e eficiência para dados visuais. Em contraste, arquiteturas como o Transformer-XL priorizam a retenção de memória para dados sequenciais. Curiosamente, o campo está evoluindo para a IA multimodal, onde backbones de visão eficientes (como aqueles no YOLO26) podem ser combinados com decodificadores de linguagem de contexto longo para analisar vídeos extensos e responder a perguntas complexas sobre eventos que acontecem ao longo do tempo.

Link to this sectionExemplo: Gerenciando Contexto na Inferência#

Embora a mecânica interna do Transformer-XL seja complexa, usar modelos avançados muitas vezes envolve gerenciar entradas para respeitar os limites de contexto. O exemplo em Python a seguir, usando torch, demonstra o conceito de passar "memória" (estados ocultos) para um modelo para manter o contexto entre passos, simulando o comportamento recorrente encontrado em arquiteturas como o Transformer-XL.

import torch
import torch.nn as nn

# Define a simple RNN to demonstrate passing hidden states (memory)
# This mimics the core concept of recurrence used in Transformer-XL
rnn = nn.RNN(input_size=10, hidden_size=20, num_layers=2, batch_first=True)

# Initial input: Batch size 1, sequence length 5, feature size 10
input_seq1 = torch.randn(1, 5, 10)

# Run first segment, receiving output and the hidden state (memory)
output1, memory = rnn(input_seq1)

# Run second segment, PASSING the memory from the previous step
# This connects the two segments, allowing context to flow
input_seq2 = torch.randn(1, 5, 10)
output2, new_memory = rnn(input_seq2, memory)

print(f"Output shape with context: {output2.shape}")

Para equipes que buscam treinar e implantar modelos de última geração com eficiência, a Plataforma Ultralytics fornece ferramentas para gerenciar conjuntos de dados e otimizar o processo de treinamento de modelo, esteja você trabalhando com modelos de visão ou integrando arquiteturas sequenciais complexas.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.

Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.

Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.

Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.

Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.

Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.

Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.

Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática