Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Flash Attention

Explore como o Flash Attention otimiza a memória e acelera modelos Transformer. Aprenda como ele aprimora a visão computacional e por que o Ultralytics YOLO26 é a melhor escolha.

Flash Attention é um algoritmo altamente otimizado projetado para acelerar o treinamento e a inferência de modelos Transformer gerenciando o acesso à memória de forma mais eficiente. No deep learning (DL) moderno, particularmente com modelos grandes, o principal gargalo geralmente não é a velocidade de computação do processador, mas o tempo necessário para mover dados entre o armazenamento de memória e as unidades de computação. Flash Attention aborda esse "muro de memória" reorganizando como os mecanismos de atenção processam dados, resultando em desempenho mais rápido e menor uso de memória sem sacrificar a precisão.

Link to this sectionComo funciona o Flash Attention#

Para entender o Flash Attention, ajuda observar a arquitetura de uma GPU (Graphics Processing Unit). Uma GPU possui uma memória de alta largura de banda (HBM), de grande capacidade porém mais lenta, e uma SRAM on-chip de baixa capacidade, porém incrivelmente rápida. As implementações de atenção padrão leem e escrevem repetidamente grandes matrizes na lenta HBM, o que cria um acúmulo.

Flash Attention usa uma técnica chamada "tiling" para dividir a grande matriz de atenção em blocos menores que cabem inteiramente dentro da rápida SRAM. Ao manter esses blocos na memória rápida e realizar mais computações lá antes de gravar o resultado de volta, o algoritmo reduz significativamente o número de operações de leitura/escrita na HBM. Essa inovação, introduzida por pesquisadores da Stanford University, torna o processo "IO-aware", o que significa que ele contabiliza explicitamente o custo do movimento de dados. Você pode explorar os detalhes técnicos no artigo de pesquisa original.

Link to this sectionDistinção de termos relacionados#

É importante distinguir o Flash Attention de conceitos semelhantes no glossário de inteligência artificial (AI):

  • Atenção Padrão: A implementação tradicional que calcula a matriz de atenção completa. É matematicamente idêntica ao Flash Attention em termos de saída, mas costuma ser mais lenta e intensiva em memória porque não otimiza o IO de memória.
  • Flash Attention: Uma otimização exata da atenção padrão. Não é uma aproximação; fornece exatamente os mesmos resultados numéricos, apenas significativamente mais rápido.
  • Atenção Escassa: Uma técnica de aproximação que ignora certas conexões para economizar poder computacional. Ao contrário do Flash Attention, os métodos de atenção escassa trocam alguma precisão por velocidade.

Link to this sectionRelevância em Visão Computacional e YOLO#

Embora originalmente desenvolvido para Processamento de Linguagem Natural (NLP) para lidar com sequências longas de texto, o Flash Attention tornou-se crítico em visão computacional (CV). Imagens de alta resolução criam sequências massivas de dados quando processadas por Vision Transformers (ViT).

Esta tecnologia influencia o desenvolvimento de detectores de objetos. Por exemplo, alguns modelos experimentais como o YOLO12, orientado pela comunidade, introduziram camadas de atenção que aproveitam esses princípios. No entanto, arquiteturas puramente baseadas em atenção podem sofrer com instabilidade de treinamento e baixas velocidades de CPU. Para a maioria das aplicações profissionais, o Ultralytics YOLO26 é o padrão recomendado. O YOLO26 utiliza uma arquitetura altamente otimizada que equilibra velocidade e precisão para detecção de objetos e segmentação de imagem de ponta a ponta, evitando o overhead frequentemente associado a camadas de atenção pesadas em dispositivos de borda.

Link to this sectionAplicações no Mundo Real#

Os ganhos de eficiência do Flash Attention permitem aplicações que antes eram caras ou lentas demais para serem executadas.

  1. IA Generativa de Contexto Longo: No mundo dos Grandes Modelos de Linguagem (LLMs) como o GPT-4, o Flash Attention permite que o modelo "lembre" vastas quantidades de informação. Isso permite uma janela de contexto massiva, permitindo que usuários façam upload de livros inteiros ou bases de código jurídico para resumo de texto sem que o modelo trave devido a limites de memória.

  2. Diagnósticos Médicos de Alta Resolução: Na análise de imagens médicas, os detalhes importam. Patologistas analisam scans gigapixel de amostras de tecido. O Flash Attention permite que os modelos processem essas imagens massivas em sua resolução nativa, identificando pequenas anomalias como tumores cerebrais em estágio inicial sem reduzir a resolução da imagem e perder dados vitais.

Link to this sectionExemplo de Código#

Embora o Flash Attention seja frequentemente uma otimização interna dentro de bibliotecas como PyTorch, você pode aproveitar modelos baseados em atenção facilmente com o Ultralytics. O trecho a seguir mostra como carregar um modelo RT-DETR, que usa mecanismos de atenção, para realizar inferência em uma imagem.

from ultralytics import RTDETR

# Load a pre-trained RT-DETR model which utilizes transformer attention
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects
results = model("https://ultralytics.com/images/bus.jpg")

# Display the number of detected objects
print(f"Detected {len(results[0].boxes)} objects.")

Usando ferramentas como a Ultralytics Platform, desenvolvedores podem treinar e implantar esses modelos sofisticados sem precisar implementar manualmente kernels de GPU complexos. A plataforma gerencia a infraestrutura, permitindo que as equipes se concentrem na curadoria de datasets de alta qualidade e na interpretação dos resultados.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática