Descubra como os «attention sinks» estabilizam os LLMs e os VLMs para a geração de sequências infinitas. Aprenda a otimizar a memória e a implementar IA estável com Ultralytics .
Os sumidouros de atenção são um fenómeno crítico descoberto na arquitetura dos modernos grandes modelos de linguagem (LLMs) e modelos de visão-linguagem (VLMs) que garante a estabilidade durante a geração contínua de textos ou dados de grande extensão. Num mecanismo de atenção, as redes neurais atribuem dinamicamente «pesos» a diferentes partes da entrada. Os investigadores observaram que os modelos autorregressivos despejam, por natureza, uma quantidade enorme de pontuações de atenção em excesso nos primeiros tokens de uma sequência, independentemente do seu significado semântico real. Estes tokens iniciais funcionam como um «sumidouro de atenção», fornecendo uma âncora matemática que impede que as pontuações de atenção do modelo entrem em colapso. Ao manter permanentemente estes tokens de sumidouro na cache KV do modelo, os programadores podem permitir a geração de sequências infinitas sem comprometer a precisão ou causar falhas devido a limites de memória.
A necessidade de "sinks" de atenção decorre da operação Softmax utilizada nos Transformers. Como a soma das pontuações de atenção deve ser sempre igual a 1, o modelo precisa de um local para alocar a atenção não necessária ao processar dados altamente localizados. Os primeiros tokens de um prompt absorvem naturalmente esse excesso.
Historicamente, ao gerar sequências muito longas, os engenheiros utilizavam técnicas de janelas que eliminavam os tokens mais antigos da memória. No entanto, a eliminação dos tokens iniciais do sink provocava uma queda imediata no desempenho. Implementações modernas, como o StreamingLLM, retêm explicitamente esses tokens iniciais juntamente com os tokens mais recentes. Esta abordagem altamente otimizada à gestão de memória é ativamente explorada nos desenvolvimentos de visão da OpenAI e na investigaçãoGoogle , e é suportada nativamente no PyTorch .
Para compreender plenamente como os modelos de IA otimizam o contexto, é útil comparar os «sumidouros de atenção» com outras estratégias de memória e hardware:
A descoberta dos «absorventes de atenção» permitiu o desenvolvimento de capacidades de processamento contínuo e altamente eficientes em vários setores.
Embora os sinks de atenção se destinem principalmente a otimizar modelos generativos de grande dimensão, a aplicação de ciclos de inferência eficientes e que economizam memória é de importância universal na visão computacional (CV). Ao processar fluxos contínuos de vídeo com Ultralytics , o uso de geradores Python garante a estabilidade da memória durante longos períodos, à semelhança do que acontece com a gestão de uma janela de contexto localizada.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")
# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)
# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
print(f"Detected {len(frame_result.boxes)} objects in the current frame.")
A escalabilidade destas cadeias de deteção de objetos eficientes e contínuas para utilização empresarial requer ferramentas de gestão robustas. Os programadores podem utilizar a Ultralytics para simplificar a implementação de modelos e a gestão automatizada de conjuntos de dados, permitindo que as equipas criem com facilidade aplicações de visão estáveis e de longa duração.

Comece sua jornada com o futuro do aprendizado de máquina