Glossário

Longformer

Descobre o Longformer, o modelo de transformador optimizado para sequências longas, oferecendo uma eficiência escalável para NLP, genómica e análise de vídeo.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

O Longformer é um tipo de modelo Transformer concebido especificamente para processar sequências de texto muito longas de forma eficiente. Desenvolvido pelo Allen Institute for AI (AI2), aborda uma limitação fundamental dos modelos de Transformador padrão, como o BERT e o GPT, cujos requisitos computacionais e de memória crescem quadraticamente com o comprimento da sequência. Isso torna os Transformadores padrão impraticáveis para tarefas que envolvem milhares de tokens, como o processamento de documentos inteiros, livros ou longas conversas. O Longformer utiliza um mecanismo de atenção optimizado para lidar com estas sequências longas, tornando viável a aplicação do poder dos Transformers a uma gama mais vasta de tarefas de Processamento de Linguagem Natural (NLP).

Como funciona o Longformer

A principal inovação do Longformer reside no seu padrão de auto-atenção eficiente. Os transformadores padrão usam um mecanismo de auto-atenção "completo" em que cada ficha atende a todas as outras fichas da sequência. Embora poderoso, este mecanismo conduz ao estrangulamento da complexidade quadrática. O Longformer substitui-o por uma combinação de padrões de atenção:

  1. Janela deslizante de atenção: Cada token atende apenas a uma janela de tamanho fixo de tokens vizinhos à sua volta. Isto capta o contexto local de forma eficaz e aumenta linearmente com o comprimento da sequência.
  2. Atenção de janela deslizante dilatada: Para aumentar o campo recetivo sem adicionar computação, a janela pode ser "dilatada", o que significa que salta alguns tokens dentro da sua visão, permitindo-lhe captar informação de tokens mais distantes enquanto continua a atender apenas a um número fixo.
  3. Atenção global: Alguns tokens pré-selecionados (por exemplo, tokens especiais como [CLS] utilizadas para tarefas de classificação) podem atender a toda a sequência, e toda a sequência pode atendê-las. Assim, garante que as informações específicas da tarefa podem ser integradas globalmente.

Esta combinação permite que o Longformer construa representações contextuais que incorporam informações locais e globais, semelhantes aos Transformers padrão, mas com uma complexidade computacional que escala linearmente, e não quadraticamente, com o comprimento da sequência. Isto torna possível o processamento de sequências de dezenas de milhares de tokens, em comparação com os limites típicos de 512 ou 1024 tokens de modelos como o BERT. As implementações estão prontamente disponíveis em bibliotecas como Hugging Face Transformers.

Principais caraterísticas e vantagens

  • Eficiência: Escala linear de computação e memória com o comprimento da sequência, permitindo o processamento de documentos muito mais longos.
  • Escalabilidade: Pode lidar com sequências até comprimentos limitados principalmente pela memória do hardware (por exemplo, 4096 tokens ou mais, em comparação com 512 para o BERT padrão).
  • Desempenho: Mantém um forte desempenho em várias tarefas de PNL, superando frequentemente os modelos limitados a contextos mais curtos quando as dependências de longo alcance são importantes.
  • Flexibilidade: Pode ser usado como um substituto para camadas transformadoras padrão em muitas arquiteturas de aprendizagem profunda.
  • Pré-treino e ajuste fino: Pode ser pré-treinado em grandes corpora de texto e depois afinado para tarefas específicas a jusante, à semelhança de outros modelos Transformer.

Aplicações no mundo real

A capacidade do Longformer para lidar com sequências longas desbloqueia capacidades em vários domínios:

  • Sumarização de documentos: Resume artigos longos, documentos de investigação ou relatórios em que as informações cruciais podem estar espalhadas por todo o texto. Os modelos padrão podem perder o contexto devido ao truncamento.
  • Resposta a perguntas em documentos longos: Responde a perguntas com base em informações contidas em documentos longos, como contratos legais, manuais técnicos ou livros, sem precisar de dividir o documento em partes mais pequenas e potencialmente quebradoras de contexto. Por exemplo, uma IA jurídica pode utilizar o Longformer para encontrar cláusulas relevantes num contrato de 100 páginas.
  • Análise de literatura científica: Processamento e compreensão de relações e descobertas complexas em artigos científicos completos para tarefas como a extração de informação ou a construção de gráficos de conhecimento.
  • Sistemas de diálogo: Analisar longos históricos de conversação em chatbots ou assistentes virtuais para manter um melhor contexto e coerência em interações prolongadas.

Importância na IA/ML

O Longformer representa um passo significativo para permitir que os modelos de aprendizagem profunda compreendam e raciocinem sobre textos longos. Ao ultrapassar o estrangulamento da complexidade quadrática dos Transformadores padrão, permite que os Modelos de Linguagem Grandes (LLMs) lidem com tarefas que envolvem documentos, livros e diálogos alargados de forma mais eficaz. Esta capacidade é essencial para aplicações que requerem uma compreensão contextual profunda, ultrapassando os limites do que a inteligência artificial (IA) pode alcançar no processamento da linguagem humana encontrada em formatos longos.

Enquanto modelos como o Ultralytics YOLO11 se destacam em tarefas de visão computacional (CV), como a deteção de objectos e a segmentação de imagens, o Longformer oferece avanços análogos para o tratamento de dados textuais complexos e longos no domínio da PNL. Ferramentas como o Ultralytics HUB simplificam a implementação e a gestão de vários modelos de IA, incluindo potencialmente modelos de PNL como o Longformer, que foram ajustados para tarefas específicas utilizando estruturas como PyTorch ou TensorFlow.

Comparação com termos relacionados

  • Transformador padrão: O Longformer é uma modificação da arquitetura padrão do Transformer. A principal diferença é o mecanismo de atenção eficiente do Longformer (janela deslizante + atenção global) concebido para sequências longas, enquanto os Transformadores padrão utilizam a auto-atenção total, que é computacionalmente dispendiosa para entradas longas.
  • Reformer: Outra variante eficiente do Transformer, o Reformer, utiliza técnicas como a atenção ao hashing sensível à localidade (LSH) e camadas residuais reversíveis para reduzir a memória e os custos computacionais. Embora ambos visem sequências longas, utilizam abordagens técnicas diferentes para alcançar a eficiência.
  • Transformador-XL: O Transformer-XL introduz a recorrência e as incorporações posicionais relativas para lidar com contextos mais longos do que os Transformers padrão, particularmente úteis na modelação auto-regressiva da linguagem. O Longformer concentra-se mais em contextos bidireccionais dentro de uma única sequência longa, utilizando o seu padrão de atenção específico.
Lê tudo