Glossário

Longformer

Descubra o Longformer, o modelo de transformador optimizado para sequências longas, que oferece uma eficiência escalável para NLP, genómica e análise de vídeo.

O Longformer é um modelo avançado baseado no Transformer, concebido para processar eficientemente documentos muito longos. Desenvolvido por investigadores do Allen Institute for AI, a sua principal inovação é um mecanismo de atenção que escala linearmente com o comprimento da sequência, ao contrário da escala quadrática dos modelos Transformer padrão, como o BERT. Esta eficiência torna possível executar tarefas complexas de Processamento de Linguagem Natural (PLN) em textos com milhares ou mesmo dezenas de milhares de tokens, o que é computacionalmente proibitivo para arquitecturas anteriores.

Como funciona o Longformer

O cerne da eficiência do Longformer reside no seu padrão de atenção único, que substitui o mecanismo de auto-atenção completo de um Transformer padrão. Em vez de cada ficha estar atenta a todas as outras fichas, o Longformer combina dois tipos de atenção:

  • Janela Deslizante (Local) de Atenção: A maioria dos tokens só presta atenção a um número fixo de tokens vizinhos em ambos os lados. Isto capta o contexto local, semelhante à forma como um leitor humano compreende as palavras com base nas palavras que as rodeiam imediatamente. Esta abordagem é inspirada no sucesso das Redes Neuronais Convolucionais (CNNs) no aproveitamento de padrões locais.
  • Atenção global: Um pequeno número de tokens pré-selecionados é designado para ter atenção global, o que significa que podem atender a todos os outros tokens em toda a sequência. Estes tokens "globais" actuam como colectores de informação de alto nível de todo o documento. Para tarefas específicas afinaçãoEstes tokens globais são muitas vezes escolhidos estrategicamente, como o [CLS] token para tarefas de classificação.

Esta combinação proporciona um equilíbrio entre a eficiência computacional e a captura das dependências de longo alcance necessárias para a compreensão de documentos complexos. A investigação original está detalhada no documento"Longformer: The Long-Document Transformer".

Aplicações em IA e aprendizagem automática

A capacidade do Longformer para lidar com sequências longas abre possibilidades para muitas aplicações que anteriormente eram impraticáveis.

  • Análise de documentos longos: Pode executar tarefas como a sumarização de texto ou a resposta a perguntas em livros inteiros, artigos de investigação extensos ou documentos jurídicos complexos. Por exemplo, uma empresa de tecnologia jurídica pode utilizar um modelo baseado no Longformer para analisar automaticamente milhares de páginas de documentos de descoberta para encontrar provas relevantes.
  • Sistemas de diálogo e chatbots: No contexto de um chatbot ou de um assistente virtual, o Longformer pode manter um histórico de conversação muito mais longo, conduzindo a interações mais coerentes e conscientes do contexto durante períodos prolongados.
  • Genómica e Bioinformática: A sua arquitetura é adequada para analisar sequências longas de ADN ou proteínas, ajudando os investigadores a identificar padrões e funções em vastos conjuntos de dados genéticos. Um laboratório de investigação pode aplicá-lo para encontrar sequências de genes específicos num cromossoma inteiro.

Os modelos Longformer pré-treinados estão amplamente disponíveis em plataformas como a Hugging Face, permitindo aos programadores adaptá-los a várias tarefas.

Comparação com termos relacionados

O Longformer é um dos vários modelos concebidos para ultrapassar as limitações dos transformadores standard para sequências longas.

  • Transformador padrão: A principal diferença é o mecanismo de atenção. O padrão de atenção eficiente do Longformer foi concebido para sequências longas, ao passo que a auto-atenção total nos Transformers padrão exige demasiada memória e computação para entradas longas.
  • Reformer: Outro transformador eficiente, o Reformer usa técnicas como a atenção ao hashing sensível à localidade (LSH) e camadas reversíveis para reduzir o uso de recursos. Embora ambos visem sequências longas, empregam estratégias técnicas diferentes para alcançar a eficiência.
  • Transformer-XL: Este modelo introduz a recorrência e os embeddings posicionais relativos para gerir contextos mais longos, tornando-o particularmente eficaz para tarefas auto-regressivas como a geração de texto. O Longformer, pelo contrário, foi concebido para processar um único documento longo com um contexto bidirecional numa única passagem.

Embora estes modelos de PNL sejam diferentes dos modelos de visão por computador (CV), como o Ultralytics YOLO, que se destacam em tarefas como a deteção de objectos, a procura de eficiência computacional é um tema comum. As inovações que reduzem a complexidade, como as do Longformer, são cruciais para tornar práticos os poderosos modelos de aprendizagem profunda para inferência em tempo real e implementação de modelos em hardware diversificado. O gerenciamento desses modelos avançados pode ser simplificado usando plataformas como o Ultralytics HUB.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Ligue-se, colabore e cresça com inovadores globais

Aderir agora
Ligação copiada para a área de transferência