Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Longformer

Explora a arquitetura Longformer para processar sequências de dados longas de forma eficiente. Aprende como a atenção esparsa supera os limites de memória para NLP e Computer Vision.

O Longformer é um tipo especializado de arquitetura de Deep Learning projetado para processar sequências longas de dados com eficiência, superando as limitações dos modelos tradicionais. Originalmente introduzido para abordar as restrições dos Transformers padrão, que normalmente enfrentam dificuldades com sequências maiores que 512 tokens devido a restrições de memória, o Longformer emprega um mecanismo de atenção modificado. Ao reduzir a complexidade computacional de quadrática para linear, esta arquitetura permite que sistemas de IA analisem documentos inteiros, transcrições extensas ou sequências genéticas complexas em uma única passagem sem truncar a entrada.

Link to this sectionO Problema do Gargalo de Atenção#

Para entender a importância do Longformer, é essencial observar a limitação de predecessores como o BERT e os primeiros modelos GPT-3. Os transformers padrão usam uma operação de "autoatenção" onde cada token (palavra ou parte de uma palavra) presta atenção a cada outro token na sequência. Isso cria um custo computacional quadrático; dobrar o comprimento da sequência quadruplica a memória necessária na GPU. Consequentemente, a maioria dos modelos padrão impõe um limite estrito ao tamanho da entrada, forçando frequentemente cientistas de dados a dividir documentos em segmentos menores e desconectados, o que resulta em perda de contexto.

O Longformer resolve isso introduzindo a Atenção Esparsa. Em vez de uma conexão total de todos para todos, ele utiliza uma combinação de atenção local em janela e atenção global:

  • Atenção em Janela Deslizante: Cada token apenas presta atenção aos seus vizinhos imediatos. Isso captura o contexto local e a estrutura sintática, de forma semelhante a como uma Rede Neural Convolucional (CNN) processa imagens.
  • Janela Deslizante Dilatada: Para aumentar o campo receptivo sem aumentar a computação, a janela pode incorporar lacunas, permitindo que o modelo "enxergue" mais longe no texto.
  • Atenção Global: Tokens pré-selecionados específicos (como o token de classificação [CLS]) prestam atenção a todos os outros tokens na sequência, e todos os tokens prestam atenção a eles. Isso garante que o modelo mantenha uma compreensão de alto nível de toda a entrada para tarefas como resumo de texto.

Link to this sectionAplicações no Mundo Real#

A capacidade de processar milhares de tokens simultaneamente abre novas possibilidades para Processamento de Linguagem Natural (NLP) e além.

Link to this sectionAnálise de Documentos Jurídicos e Médicos#

Em indústrias como a jurídica e a de saúde, os documentos raramente são curtos. Um contrato legal ou o histórico médico de um paciente pode abranger dezenas de páginas. Os Grandes Modelos de Linguagem (LLMs) tradicionais exigiriam que esses documentos fossem fragmentados, potencialmente perdendo dependências cruciais entre uma cláusula na página 1 e uma definição na página 30. O Longformer permite o Reconhecimento de Entidade Nomeada (NER) e a classificação sobre o documento inteiro de uma só vez, garantindo que o contexto global influencie a interpretação de termos específicos.

Link to this sectionResposta a Perguntas (QA) de Formato Longo#

Sistemas padrão de Resposta a Perguntas frequentemente lutam quando a resposta para uma pergunta exige sintetizar informações distribuídas por um artigo longo. Ao manter o texto completo na memória, modelos baseados em Longformer podem realizar raciocínio de múltiplos saltos, conectando fatos encontrados em diferentes parágrafos para gerar uma resposta abrangente. Isso é fundamental para sistemas automatizados de suporte técnico e ferramentas de pesquisa acadêmica.

Link to this sectionDiferenciando termos-chave#

  • Longformer vs. Transformer: O Transformer padrão usa atenção total $N^2$, tornando-o preciso, mas computacionalmente caro para entradas longas. O Longformer usa atenção $N$ esparsa, trocando uma quantidade negligenciável de capacidade teórica por ganhos massivos de eficiência, permitindo entradas de 4.096 tokens ou mais.
  • Longformer vs. Transformer-XL: Embora ambos lidem com sequências longas, o Transformer-XL depende de um mecanismo de recorrência (armazenando estados anteriores) para lembrar segmentos passados. O Longformer processa a sequência longa nativamente de uma só vez, o que simplifica o treinamento paralelo em plataformas como a Ultralytics Platform.
  • Longformer vs. BigBird: Estas são arquiteturas muito semelhantes desenvolvidas na mesma época. Ambas usam mecanismos de atenção esparsa para alcançar escala linear. O BigBird introduz um componente específico de atenção aleatória além das janelas deslizantes.

Link to this sectionConceitos de Implementação#

Embora o Longformer seja uma arquitetura e não uma função específica, entender como preparar dados para modelos de contexto longo é crucial. Em frameworks modernos como PyTorch, isso envolve frequentemente gerenciar embeddings que excedem os limites padrão.

O exemplo a seguir demonstra a criação de um tensor de entrada simulado para um cenário de contexto longo, contrastando-o com o tamanho típico usado em modelos de detecção padrão como o YOLO26.

import torch

# Standard BERT-like models typically cap at 512 tokens
standard_input = torch.randint(0, 30000, (1, 512))

# Longformer architectures can handle significantly larger inputs (e.g., 4096)
# This allows the model to "see" the entire sequence at once.
long_context_input = torch.randint(0, 30000, (1, 4096))

print(f"Standard Input Shape: {standard_input.shape}")
print(f"Long Context Input Shape: {long_context_input.shape}")

# In computer vision, a similar concept applies when processing high-res images
# without downsampling, preserving fine-grained details.

Link to this sectionRelevância para a Visão Computacional#

Embora originalmente projetado para texto, os princípios por trás do Longformer influenciaram a Visão Computacional. O conceito de limitar a atenção a uma vizinhança local é análogo às operações localizadas em tarefas visuais. Os Vision Transformers (ViT) enfrentam problemas de escala semelhantes com imagens de alta resolução porque o número de pixels (ou patches) pode ser enorme. Técnicas derivadas da atenção esparsa do Longformer são usadas para melhorar a eficiência da classificação de imagens e da detecção de objetos, ajudando modelos como o YOLO26 a manter altas velocidades enquanto processam dados visuais detalhados.

Para leitura adicional sobre as especificidades arquiteturais, o artigo original sobre o Longformer da AllenAI fornece benchmarks aprofundados e justificativas teóricas. Além disso, o treinamento eficiente de modelos tão grandes geralmente se beneficia de técnicas como precisão mista e algoritmos de otimização avançados.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática