Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Transformer

Descubra como as arquiteturas Transformer revolucionam a IA, impulsionando avanços em PNL, visão computacional e tarefas avançadas de ML.

Um Transformer é uma arquitetura de rede neural inovadora que utiliza um mecanismo de auto-atenção para processar dados de entrada em paralelo, revolucionando significativamente os campos de Processamento de Linguagem Natural (PNL) e da Visão por Computador (CV). Apresentada pela primeira vez por investigadores Google no artigo seminal de 2017 de 2017 "Attention Is All You Need", o Transformer afasta-se do do processamento sequencial utilizado pelas arquitecturas mais antigas. Em vez disso, analisa sequências inteiras de dados em simultâneo, permitindo-lhe captar dependências de longo alcance e relações contextuais com uma eficiência sem precedentes. Esta arquitetura serve de base à moderna IA generativa e poderosos Modelos de Linguagem Grandes (LLMs) como o GPT-4.

Arquitetura e mecanismo de base

A caraterística que define um Transformador é a sua dependência do mecanismo de atenção, especificamente auto-atenção. Ao contrário das Redes Neurais Recorrentes (RNNs), que processam os dados passo a passo (por exemplo, palavra por palavra), os Transformadores absorvem toda a entrada de uma só vez. Para entender a ordem dos dados, eles empregam codificações posicionais, que são adicionadas aos embeddings de entrada para reter informação sobre a estrutura da sequência.

A arquitetura é normalmente constituída por pilhas de codificadores e descodificadores:

  • Codificador: Processa os dados de entrada para criar uma compreensão contextual.
  • Descodificador: Utiliza os conhecimentos do codificador para gerar resultados, tais como texto traduzido ou píxeis de imagem.

Esta estrutura paralela permite uma escalabilidade maciça, permitindo aos investigadores treinar modelos em vastos conjuntos de dados utilizando GPUs de alto desempenho.

Transformadores em visão computacional

Embora originalmente concebida para texto, a arquitetura foi adaptada com êxito a tarefas visuais através do Transformador de Visão (ViT). Nesta abordagem, uma imagem é dividida numa sequência de fragmentos de tamanho fixo (semelhante às palavras de uma frase). O modelo utiliza então a O modelo usa a auto-atenção para ponderar a importância de diferentes importância dos diferentes fragmentos em relação uns aos outros, capturando o contexto global que as Redes Neuronais Convolucionais (CNNs) tradicionais podem não perceber.

Por exemplo, o Transformador de Deteção em Tempo Real (RT-DETR) utiliza esta arquitetura para efetuar uma deteção de objectos. Ao contrário dos modelos baseados em CNN que que se baseiam em caraterísticas locais, RT-DETR consegue compreender a relação entre objectos distantes numa cena. No entanto, é No entanto, vale a pena notar que, enquanto os Transformers se destacam no contexto global, os modelos baseados em CNN, como o Ultralytics YOLO11 fornecem frequentemente um melhor equilíbrio entre velocidade e precisão para aplicações de ponta em tempo real. Modelos comunitários como o YOLO12 tentaram integrar camadas de atenção pesada mas sofrem frequentemente de instabilidade na formação e de velocidades de inferência lentas em comparação com a arquitetura CNN optimizada optimizada do YOLO11.

Aplicações no Mundo Real

A versatilidade da arquitetura do transformador levou à sua adoção em várias indústrias.

  • Análise de imagens médicas: No sector da saúde, os Transformers ajudam na análise de imagens médicas, correlacionando caraterísticas em exames de alta resolução (por exemplo, MRI ou CT) para detect anomalias como tumores. A sua capacidade de compreender contexto global garante que os padrões subtis não são ignorados.
  • Navegação autónoma: Os automóveis autónomos utilizam modelos baseados no Transformer para processar feeds de vídeo de várias câmaras. Isto ajuda na compreensão de vídeo e previsão de trajectórias seguindo a forma como os objectos dinâmicos (peões, outros veículos) interagem ao longo do tempo.
  • Chatbots avançados: Os assistentes virtuais e os agentes de apoio ao cliente confiam nos Transformers para manter o contexto durante longas conversas, melhorando significativamente a experiência do utilizador em comparação com chatbots mais antigos.

Utilização de transformadores com Ultralytics

É possível experimentar modelos de visão computacional baseados no Transformer diretamente utilizando o ultralytics pacote. O exemplo seguinte demonstra como carregar o modelo RT-DETR para deteção de objectos.

from ultralytics import RTDETR

# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Transformadores vs. Outras Arquitecturas

É importante distinguir os Transformers de outras arquitecturas comuns de arquitecturas comuns de aprendizagem profunda (DL):

  • Transformers vs. RNNs/LSTMs: Os RNNs sofrem do problema do problema do gradiente de desaparecimento, fazendo-os esquecer informação inicial em sequências longas. Os transformadores resolvem este problema através da auto-atenção, mantendo o acesso a todo o histórico da sequência.
  • Transformadores vs. CNNs: As CNNs são invariantes à tradução e excelentes na deteção de padrões locais locais (arestas, texturas) utilizando uma espinha dorsal, o que as torna altamente eficientes para tarefas de imagem. Os transformadores aprendem relações globais, mas geralmente requerem mais dados e poder de computação para convergir. As abordagens modernas criam frequentemente modelos híbridos ou utilizam CNNs eficientes como YOLO11 que superam os transformadores puros em ambientes ambientes restritos.

Perspectivas futuras

A investigação está continuamente a melhorar a eficiência dos transformadores. Inovações como o FlashAttention estão a reduzir o custo computacional, permitindo janelas de contexto mais longas. Além disso, sistemas multimodais de IA estão a fundir os Transformers com outras arquitecturas para processar texto, imagens e áudio em simultâneo. À medida que estas tecnologias amadurecem, a futura Ultralytics Platform fornecerá um ambiente unificado para treinar, implementar e monitorizar estes modelos sofisticados juntamente com tarefas tarefas padrão de visão computacional.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora