Descubra como as arquiteturas Transformer revolucionam a IA, impulsionando avanços em PNL, visão computacional e tarefas avançadas de ML.
Um Transformer é uma arquitetura de rede neural inovadora que utiliza um mecanismo de auto-atenção para processar dados de entrada em paralelo, revolucionando significativamente os campos de Processamento de Linguagem Natural (PNL) e da Visão por Computador (CV). Apresentada pela primeira vez por investigadores Google no artigo seminal de 2017 de 2017 "Attention Is All You Need", o Transformer afasta-se do do processamento sequencial utilizado pelas arquitecturas mais antigas. Em vez disso, analisa sequências inteiras de dados em simultâneo, permitindo-lhe captar dependências de longo alcance e relações contextuais com uma eficiência sem precedentes. Esta arquitetura serve de base à moderna IA generativa e poderosos Modelos de Linguagem Grandes (LLMs) como o GPT-4.
A caraterística que define um Transformador é a sua dependência do mecanismo de atenção, especificamente auto-atenção. Ao contrário das Redes Neurais Recorrentes (RNNs), que processam os dados passo a passo (por exemplo, palavra por palavra), os Transformadores absorvem toda a entrada de uma só vez. Para entender a ordem dos dados, eles empregam codificações posicionais, que são adicionadas aos embeddings de entrada para reter informação sobre a estrutura da sequência.
A arquitetura é normalmente constituída por pilhas de codificadores e descodificadores:
Esta estrutura paralela permite uma escalabilidade maciça, permitindo aos investigadores treinar modelos em vastos conjuntos de dados utilizando GPUs de alto desempenho.
Embora originalmente concebida para texto, a arquitetura foi adaptada com êxito a tarefas visuais através do Transformador de Visão (ViT). Nesta abordagem, uma imagem é dividida numa sequência de fragmentos de tamanho fixo (semelhante às palavras de uma frase). O modelo utiliza então a O modelo usa a auto-atenção para ponderar a importância de diferentes importância dos diferentes fragmentos em relação uns aos outros, capturando o contexto global que as Redes Neuronais Convolucionais (CNNs) tradicionais podem não perceber.
Por exemplo, o Transformador de Deteção em Tempo Real (RT-DETR) utiliza esta arquitetura para efetuar uma deteção de objectos. Ao contrário dos modelos baseados em CNN que que se baseiam em caraterísticas locais, RT-DETR consegue compreender a relação entre objectos distantes numa cena. No entanto, é No entanto, vale a pena notar que, enquanto os Transformers se destacam no contexto global, os modelos baseados em CNN, como o Ultralytics YOLO11 fornecem frequentemente um melhor equilíbrio entre velocidade e precisão para aplicações de ponta em tempo real. Modelos comunitários como o YOLO12 tentaram integrar camadas de atenção pesada mas sofrem frequentemente de instabilidade na formação e de velocidades de inferência lentas em comparação com a arquitetura CNN optimizada optimizada do YOLO11.
A versatilidade da arquitetura do transformador levou à sua adoção em várias indústrias.
É possível experimentar modelos de visão computacional baseados no Transformer diretamente utilizando o ultralytics pacote.
O exemplo seguinte demonstra como carregar o modelo RT-DETR para deteção de objectos.
from ultralytics import RTDETR
# Load a pretrained RT-DETR model (Transformer-based)
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image to detect objects using global attention
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
É importante distinguir os Transformers de outras arquitecturas comuns de arquitecturas comuns de aprendizagem profunda (DL):
A investigação está continuamente a melhorar a eficiência dos transformadores. Inovações como o FlashAttention estão a reduzir o custo computacional, permitindo janelas de contexto mais longas. Além disso, sistemas multimodais de IA estão a fundir os Transformers com outras arquitecturas para processar texto, imagens e áudio em simultâneo. À medida que estas tecnologias amadurecem, a futura Ultralytics Platform fornecerá um ambiente unificado para treinar, implementar e monitorizar estes modelos sofisticados juntamente com tarefas tarefas padrão de visão computacional.