Conheça o YOLO26: IA de visão de próxima geração.
Ultralytics
Voltar para o Glossário da Ultralytics

Attention Sinks

Descobre como attention sinks estabilizam LLMs e VLMs para geração infinita de sequências. Aprende a otimizar a memória e implantar IA estável com o Ultralytics YOLO26.

Attention sinks são um fenômeno crítico descoberto na arquitetura de large language models (LLMs) e vision-language models (VLMs) modernos que garante estabilidade durante a geração contínua de textos ou dados de longa extensão. Em um attention mechanism, redes neurais atribuem dinamicamente "pesos" a diferentes partes da entrada. Pesquisadores observaram que modelos autorregressivos despejam inerentemente uma quantidade massiva de scores de atenção excedentes nos primeiros tokens de uma sequência, independentemente do seu significado semântico real. Esses tokens iniciais agem como um "attention sink", fornecendo uma âncora matemática que impede o colapso dos scores de atenção do modelo. Ao manter permanentemente esses tokens sink no KV cache do modelo, desenvolvedores podem permitir a geração infinita de sequências sem degradar a precisão ou travar devido a limites de memória.

Link to this sectionComo os Attention Sinks Estabilizam Modelos#

A necessidade de attention sinks surge da operação Softmax utilizada em Transformers. Como os scores de atenção devem sempre somar 1, o modelo precisa de um lugar para alocar a atenção desnecessária ao processar dados altamente localizados. Os tokens mais antigos em um prompt absorvem naturalmente esse excesso.

Historicamente, ao gerar sequências muito longas, engenheiros usavam técnicas de janelamento que removiam tokens antigos da memória. No entanto, descartar os tokens sink iniciais causava um colapso imediato no desempenho. Implementações modernas, como o StreamingLLM, retêm explicitamente esses tokens iniciais juntamente com os tokens mais recentes. Essa abordagem altamente otimizada para o gerenciamento de memória é explorada ativamente em OpenAI vision developments e Google DeepMind research, sendo suportada nativamente dentro do PyTorch ecosystem.

Link to this sectionDiferenciando Conceitos de Atenção Relacionados#

Para entender completamente como modelos de IA otimizam o contexto, é útil contrastar attention sinks com outras estratégias de memória e hardware:

  • Attention Sinks vs. Sliding Window Attention: O sliding window attention restringe o foco do modelo a um número fixo de tokens recentes para economizar memória. No entanto, janelas deslizantes estritas descartam os primeiros tokens, levando à instabilidade. Os attention sinks modificam isso ao ancorar a janela com esses primeiros tokens cruciais.
  • Attention Sinks vs. Flash Attention: Flash Attention é uma otimização em nível de hardware que acelera leituras e gravações de memória na GPU. Os attention sinks, por outro lado, são uma descoberta arquitetural sobre quais tokens devem ser preservados na memória para manter a estabilidade lógica.

Link to this sectionAplicações no Mundo Real#

A descoberta dos attention sinks desbloqueou capacidades de processamento contínuo altamente eficientes em diversos setores.

  1. Agentes de IA Contínuos e Chatbots: Ao reter attention sinks, um AI agent ou bot de atendimento ao cliente pode transmitir diálogos ininterruptos por horas. Ele esquece seletivamente tokens intermediários enquanto retém o sink inicial e o contexto recente, evitando erros de falta de memória (out-of-memory) e preservando a coerência conversacional.

  2. Compreensão de Vídeo em Tempo Real: Em smart surveillance e monitoramento contínuo, manter uma janela de contexto estável é crítico. Modelos podem analisar fluxos de vídeo contínuos por dias, igualando a eficiência de arquiteturas de visão otimizadas para edge.

Link to this sectionImplementando Inferência Contínua Eficiente#

Embora os attention sinks otimizem principalmente modelos generativos massivos, aplicar loops de inferência eficientes e conscientes da memória é universalmente importante em computer vision (CV). Ao processar fluxos de vídeo contínuos com Ultralytics YOLO26, aproveitar geradores Python garante estabilidade de memória por longos períodos, semelhante ao gerenciamento de uma janela de contexto localizada.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")

# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)

# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
    print(f"Detected {len(frame_result.boxes)} objects in the current frame.")

Escalar esses pipelines eficientes e contínuos de object detection para uso empresarial requer ferramentas de gerenciamento robustas. Desenvolvedores podem utilizar a Ultralytics Platform para simplificar o model deployment e o gerenciamento automatizado de datasets, permitindo que equipes construam aplicações de visão estáveis e de longa duração com facilidade.

Explore solutions

Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais
Real-time AI that works with your team

IA em robótica

Potencialize máquinas mais inteligentes com modelos Ultralytics YOLO. A IA de visão em robótica impulsiona a navegação autônoma, percepção, rastreamento de objetos e controle em tempo real.
Sabe mais
Real-time AI that works with your team

IA na Logística

Otimize a logística com modelos Ultralytics YOLO. A IA de visão permite a inspeção de pacotes, triagem, rastreamento de veículos e monitoramento de segurança em armazéns em tempo real.
Sabe mais
Real-time AI that works with your team

IA no varejo

Reinvente o varejo com modelos Ultralytics YOLO. A IA de visão impulsiona o rastreamento de inventário, monitoramento de prateleiras, gerenciamento de filas e percepções mais inteligentes sobre o cliente.
Sabe mais
Real-time AI that works with your team

IA na Saúde

Constrói soluções de saúde com modelos Ultralytics YOLO. A visão AI na saúde impulsiona imagens médicas mais rápidas, diagnósticos mais inteligentes e monitorização do paciente.
Sabe mais
Real-time AI that works with your team

IA na Fabricação

Otimize a fabricação com modelos Ultralytics YOLO. A IA de visão impulsiona o controle de qualidade, detecção de defeitos, conformidade com EPI e automação de linhas de montagem.
Sabe mais
Real-time AI that works with your operation

IA no Setor Automóvel

Aplica visão computacional no setor automóvel com modelos Ultralytics YOLO. A visão AI eleva a segurança rodoviária, a assistência ao condutor e a automação de veículos para estradas mais inteligentes.
Sabe mais
Real-time AI tailored to your operation

IA na Agricultura

Leva a visão AI para a agricultura inteligente com os modelos Ultralytics YOLO. Potencia a monitorização de culturas, o seguimento de gado e a agricultura de precisão para colheitas maiores e mais inteligentes.
Sabe mais

Vamos construir o futuro da IA juntos!

Começa a tua jornada com o futuro da aprendizagem automática