Descubra como os mecanismos de atenção revolucionam a IA, melhorando as tarefas de PNL e de visão por computador, como a tradução, a deteção de objectos e muito mais!
Um mecanismo de atenção é uma técnica utilizada nas redes neuronais que imita a atenção cognitiva humana. Permite que um modelo se concentre dinamicamente nas partes mais relevantes dos dados de entrada ao produzir uma saída. Em vez de tratar todas as partes da entrada da mesma forma, o modelo aprende a atribuir diferentes pontuações de "atenção" a cada parte, amplificando a influência da informação importante e diminuindo o impacto dos dados irrelevantes. Esta capacidade tem sido fundamental para melhorar o desempenho de modelos em vários domínios, desde o Processamento de Linguagem Natural (PLN) até à Visão por Computador (CV).
No seu núcleo, um mecanismo de atenção calcula um conjunto de pesos de atenção para a entrada. Estes pesos determinam o grau de concentração que o modelo deve colocar em cada elemento da sequência ou imagem de entrada. Por exemplo, ao traduzir uma frase longa, o modelo precisa de se concentrar em palavras de origem específicas para gerar a palavra seguinte correta na tradução. Antes dos mecanismos de atenção, modelos como as Redes Neuronais Recorrentes (RNN) tradicionais debatiam-se com sequências longas, muitas vezes "esquecendo" partes anteriores da entrada - um problema conhecido como o problema do gradiente de desaparecimento. A atenção supera este problema fornecendo uma ligação direta a todas as partes da entrada, permitindo ao modelo olhar para trás em qualquer parte da sequência, conforme necessário, independentemente do seu comprimento. Esta capacidade de lidar com dependências de longo alcance foi um avanço significativo, famosamente detalhado no artigo "Attention Is All You Need".
Embora sejam frequentemente utilizados como sinónimos, é importante distinguir entre um mecanismo de atenção geral e a auto-atenção.
Os mecanismos de atenção são parte integrante de numerosas aplicações modernas de IA:
Plataformas como o Ultralytics HUB permitem aos utilizadores treinar, validar e implementar modelos avançados, incluindo os que incorporam mecanismos de atenção. Esses modelos utilizam frequentemente pesos de modelos pré-treinados disponíveis em plataformas como a Hugging Face e são construídos com estruturas poderosas como PyTorch e TensorFlow. O desenvolvimento da atenção expandiu os limites do que é possível no aprendizado de máquina, tornando-o uma pedra angular da pesquisa e desenvolvimento modernos de IA em instituições como a DeepMind.