Sonsuz dizi üretimi için dikkat havuzlarının LLM’leri ve VLM’leri nasıl dengelediğini keşfedin. Ultralytics ile belleği optimize etmeyi ve kararlı bir yapay zeka sistemini devreye almayı öğrenin.
Dikkat havuzları, modern büyük dil modelleri (LLM’ler) ve görsel-dil modellerinin (VLM’ler) mimarisinde keşfedilen ve sürekli, uzun metin veya veri üretimi sırasında istikrarı sağlayan kritik bir olgudur. Bir dikkat mekanizmasında, sinir ağları giriş verisinin farklı bölümlerine dinamik olarak “ağırlıklar” atar. Araştırmacılar, otoregresif modellerin, gerçek anlamsal anlamlarından bağımsız olarak, bir dizinin ilk birkaç belirtecine doğası gereği çok büyük miktarda fazla dikkat puanı aktardığını gözlemlediler. Bu ilk belirteçler bir "dikkat havuzu" görevi görür ve modelin dikkat puanlarının çökmesini önleyen matematiksel bir dayanak sağlar. Bu havuz belirteçlerini modelin KV önbelleğinde kalıcı olarak tutarak, geliştiriciler doğruluğu düşürmeden veya bellek sınırları nedeniyle çökme yaşamadan sonsuz dizi üretimini mümkün kılabilirler.
Dikkat havuzlarına duyulan ihtiyaç, Transformers'da kullanılan Softmax işleminden kaynaklanmaktadır. Dikkat puanlarının toplamı her zaman 1 olması gerektiğinden, model, oldukça yerel verileri işlerken gereksiz dikkat puanlarını tahsis edecek bir alana ihtiyaç duyar. Prompttaki en başındaki belirteçler doğal olarak bu fazlalığı emer.
Geçmişte, çok uzun diziler oluşturulurken mühendisler, eski tokenları bellekten çıkaran pencereleme teknikleri kullanırlardı. Ancak, ilk alıcı tokenların atılması performansın aniden düşmesine neden oluyordu. StreamingLLM gibi modern uygulamalar, bu ilk tokenleri en son tokenlerle birlikte açıkça saklar. Bellek yönetimine yönelik bu son derece optimize edilmiş yaklaşım, OpenAI'nin görsel gelişmelerinde ve Google araştırmalarında aktif olarak incelenmekte olup, PyTorch yerel olarak desteklenmektedir.
AI modellerinin bağlamı nasıl optimize ettiğini tam olarak anlamak için, dikkat çekicileri diğer bellek ve donanım stratejileriyle karşılaştırmak faydalıdır:
Dikkat çekici unsurların keşfi, çeşitli sektörlerde son derece verimli ve kesintisiz işleme olanaklarının önünü açmıştır.
Dikkat, esas olarak devasa üretici modellerin optimizasyonuna yönelmiş olsa da, verimli ve bellek kullanımına duyarlı çıkarım döngülerinin uygulanması, bilgisayar görme (CV) alanında genel olarak büyük önem taşır. Ultralytics ile sürekli video akışlarını işlerken, Python jeneratörlerinden yararlanmak, yerel bir bağlam penceresini yönetmeye benzer şekilde, uzun süreler boyunca bellek istikrarını sağlar.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")
# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)
# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
print(f"Detected {len(frame_result.boxes)} objects in the current frame.")
Bu verimli, kesintisiz nesne algılama iş akışlarını kurumsal kullanıma uygun hale getirmek için sağlam yönetim araçları gereklidir. Geliştiriciler, Ultralytics kullanarak model dağıtımını ve otomatik veri kümesi yönetimini kolaylaştırabilir ve böylece ekipler, istikrarlı ve uzun süreli çalışan görüntü işleme uygulamalarını kolaylıkla geliştirebilir.

Makine öğreniminin geleceği ile yolculuğunuza başlayın