Explore the [attention mechanism](https://www.ultralytics.com/glossary/attention-mechanism) in AI. Learn how it enhances models like [YOLO26](https://docs.ultralytics.com/models/yolo26/) and [RT-DETR](https://docs.ultralytics.com/models/rtdetr/) for superior accuracy.
Um mecanismo de atenção é uma técnica fundamental na inteligência artificial (IA) que imita a capacidade cognitiva humana de se concentrar em detalhes específicos, ignorando informações irrelevantes. No contexto do aprendizagem profunda (DL), esse mecanismo permite que uma rede neural (NN) atribuir dinamicamente diferentes níveis de importância, ou "pesos", a diferentes partes dos dados de entrada. Em vez de processar uma imagem ou frase inteira com igual ênfase, o modelo aprende a prestar atenção às características mais significativas — como uma palavra específica em uma frase para entender o contexto ou um objeto distinto em uma cena visual complexa . Essa inovação é a força motriz por trás do arquitetura Transformer , que revolucionou áreas que vão desde o Processamento de Linguagem Natural (NLP) à visão computacional (CV).
Originalmente concebido para resolver as limitações de memória nas Redes Neurais Recorrentes (RNNs), os mecanismos de atenção abordam o problema do gradiente desaparecido criando conexões diretas entre partes distantes de uma sequência de dados. O processo é frequentemente descrito usando uma analogia de recuperação envolvendo três componentes: consultas, chaves e valores.
Ao comparar a consulta com várias chaves, o modelo calcula uma pontuação de atenção. Essa pontuação determina quanto do valor é recuperado e usado para formar a saída. Isso permite que os modelos lidem com dependências de longo alcance de forma eficaz, compreendendo as relações entre pontos de dados independentemente da distância entre eles.
Os mecanismos de atenção permitiram alguns dos avanços mais visíveis na tecnologia moderna.
É importante distinguir a atenção das Redes Neurais Convolucionais (CNNs). Enquanto as CNNs processam dados localmente usando uma janela fixa (kernel) para detect e texturas, a atenção processa os dados globalmente, relacionando cada parte da entrada com todas as outras partes.
Embora modelos de última geração como o Ultralytics são otimizados para inferência em tempo real usando estruturas CNN avançadas, arquiteturas híbridas como RT-DETR (Real-Time Detection Transformer) usam explicitamente a atenção para alcançar alta precisão. Ambos os tipos de modelos podem ser facilmente treinados e implementados usando a Ultralytics .
Python a seguir demonstra como realizar inferência usando RT-DETR, uma arquitetura modelo
que depende fundamentalmente de mecanismos de atenção para
deteção de objectos.
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model which uses attention mechanisms
# This model captures global context effectively compared to pure CNNs
model = RTDETR("rtdetr-l.pt")
# Perform inference on an image URL
results = model("https://ultralytics.com/images/bus.jpg")
# Print the number of detections found via transformer attention
print(f"Detected {len(results[0].boxes)} objects using attention-based detection.")