Sintonize na YOLO Vision 2025!
25 de setembro de 2025
10:00 — 18:00 BST
Evento híbrido
Yolo Vision 2024
Glossário

Transformer

Descubra como as arquiteturas Transformer revolucionam a IA, impulsionando avanços em PNL, visão computacional e tarefas avançadas de ML.

Um Transformer é uma arquitetura de rede neural revolucionária que se tornou a pedra angular da Inteligência Artificial (IA) moderna, especialmente no Processamento de Linguagem Natural (PNL) e, mais recentemente, na Visão Computacional (VC). Introduzido por pesquisadores do Google no artigo de 2017 "Attention Is All You Need", sua principal inovação é o mecanismo de autoatenção, que permite que o modelo pondere a importância de diferentes palavras ou partes de uma sequência de entrada. Isso permite que ele capture dependências de longo alcance e relacionamentos contextuais de forma mais eficaz do que as arquiteturas anteriores. O design também permite o paralelismo massivo, possibilitando treinar modelos muito maiores em conjuntos de dados massivos, levando à ascensão dos Grandes Modelos de Linguagem (LLMs).

Como os Transformers Funcionam

Ao contrário de modelos sequenciais como as Redes Neurais Recorrentes (RNNs), os Transformers processam sequências inteiras de dados de uma só vez. A ideia central é lidar com todos os elementos em paralelo, o que acelera significativamente o treinamento em hardware moderno como GPUs.

Para entender a ordem da sequência sem recorrência, os Transformers usam uma técnica chamada codificação posicional, que adiciona informações sobre a posição de cada elemento (por exemplo, uma palavra em uma frase) à sua incorporação. As camadas de autoatenção processam então estas incorporações, permitindo que cada elemento "olhe para" todos os outros elementos na sequência e determine quais são mais relevantes para compreender o seu significado. Esta consciência do contexto global é uma grande vantagem para tarefas complexas. Frameworks como PyTorch e TensorFlow fornecem amplo suporte para a construção de modelos baseados em Transformer.

Aplicações de Transformers

O impacto dos Transformers abrange inúmeros domínios, impulsionando o progresso tanto em tarefas de linguagem quanto de visão.

  1. Tradução e Geração de Linguagem: Serviços como o Google Translate usam modelos baseados em Transformer para tradução automática de alta qualidade. O modelo pode considerar toda a frase de origem para produzir uma tradução mais fluente e precisa. Da mesma forma, modelos como o GPT-4 se destacam na geração de texto ao entender o contexto para criar parágrafos coerentes, escrever artigos ou alimentar chatbots avançados.
  2. Visão Computacional: O Vision Transformer (ViT) adapta a arquitetura para tarefas baseadas em imagem. Ele trata uma imagem como uma sequência de patches e usa autoatenção para modelar as relações entre eles. Essa abordagem é usada em modelos como o RT-DETR para detecção de objetos, onde entender o contexto global de uma cena pode ajudar a identificar objetos com mais precisão, especialmente em ambientes desordenados. Você pode ver uma comparação de RT-DETR e YOLOv8 para entender suas diferenças arquitetônicas.

Transformer vs. Outras Arquiteturas

É útil distinguir Transformers de outras arquiteturas de redes neurais comuns:

  • Transformers vs. RNNs: As RNNs processam dados sequencialmente, o que as torna inerentemente lentas e suscetíveis ao problema do desaparecimento do gradiente, fazendo com que esqueçam informações anteriores em sequências longas. Os Transformers superam isso com processamento paralelo e autoatenção, capturando dependências de longo alcance de forma muito mais eficaz.
  • Transformers vs. CNNs: As Redes Neurais Convolucionais (CNNs) são altamente eficientes para tarefas de visão, usando filtros convolucionais para identificar padrões locais em dados semelhantes a grades, como pixels. Elas são a base para modelos como a família Ultralytics YOLO. Os Transformers, em contraste, capturam relações globais, mas geralmente exigem mais dados e recursos computacionais. Modelos híbridos, que combinam um backbone CNN com camadas Transformer, visam obter o melhor dos dois mundos.

Variantes Eficientes de Transformer

O custo computacional da autoatenção total do Transformer original cresce quadraticamente com o comprimento da sequência, tornando-o desafiador para sequências muito longas. Isso levou ao desenvolvimento de variantes mais eficientes.

  • Longformer: Usa um mecanismo de atenção de janela deslizante combinado com atenção global em tokens específicos para reduzir a complexidade computacional.
  • Reformer: Emprega técnicas como locality-sensitive hashing para aproximar a atenção total, tornando-o mais eficiente em termos de memória.
  • Transformer-XL: Introduz um mecanismo de recorrência que permite ao modelo aprender dependências além de um comprimento fixo, o que é particularmente útil para a modelagem de linguagem auto-regressiva.

Estes avanços continuam a expandir a aplicabilidade dos Transformers a novos problemas. Ferramentas e plataformas como o Hugging Face e o Ultralytics HUB facilitam aos desenvolvedores o acesso e a implementação destes modelos poderosos.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora
Link copiado para a área de transferência