Erfahren Sie, wie Attention-Sinks LLMs und VLMs für die Generierung unendlicher Sequenzen stabilisieren. Lernen Sie, wie Sie mit Ultralytics den Speicher optimieren und stabile KI-Systeme bereitstellen können.
„Attention Sinks“ sind ein entscheidendes Phänomen, das in der Architektur moderner großer Sprachmodelle (LLMs) und Bild-Sprach-Modelle (VLMs) entdeckt wurde und für Stabilität bei der kontinuierlichen Generierung langer Texte oder Daten sorgt. In einem Attention-Mechanismus weisen neuronale Netze verschiedenen Teilen der Eingabe dynamisch „Gewichte“ zu. Forscher beobachteten, dass autoregressive Modelle von Natur aus eine enorme Menge an überschüssigen Aufmerksamkeitswerten auf die allerersten Token einer Sequenz abladen, unabhängig von deren tatsächlicher semantischer Bedeutung. Diese anfänglichen Token fungieren als „Attention Sink“ und bieten einen mathematischen Anker, der verhindert, dass die Aufmerksamkeitswerte des Modells zusammenbrechen. Indem diese Senken-Token dauerhaft im KV-Cache des Modells verbleiben, können Entwickler eine unendliche Sequenzgenerierung ermöglichen, ohne dass die Genauigkeit beeinträchtigt wird oder es aufgrund von Speichergrenzen zu Abstürzen kommt.
Die Notwendigkeit von „Attention Sinks“ ergibt sich aus der Softmax-Operation, die in Transformern verwendet wird. Da die Summe der Attention-Werte stets 1 ergeben muss, benötigt das Modell einen Ort, an den es überflüssige Attention-Werte bei der Verarbeitung stark lokalisierter Daten verlagern kann. Die frühesten Token in einer Eingabe übernehmen diesen Überschuss ganz natürlich.
In der Vergangenheit nutzten Entwickler bei der Generierung sehr langer Sequenzen Fenstertechniken, bei denen ältere Token aus dem Speicher entfernt wurden. Das Weglassen der anfänglichen Token führte jedoch zu einem sofortigen Einbruch der Leistung. Moderne Implementierungen, wie beispielsweise StreamingLLM, behalten diese anfänglichen Token explizit neben den neuesten Token bei. Dieser hochoptimierte Ansatz zur Speicherverwaltung wird aktiv in den Vision-Entwicklungen von OpenAI und der ForschungGoogle untersucht und wird nativ innerhalb des PyTorch unterstützt.
Um vollständig zu verstehen, wie KI-Modelle den Kontext optimieren, ist es hilfreich, „Attention Sinks“ mit anderen Speicher- und Hardwarestrategien zu vergleichen:
Die Entdeckung von „Attention Sinks“ hat in verschiedenen Branchen hoch effiziente Möglichkeiten zur kontinuierlichen Datenverarbeitung eröffnet.
Während sich Attention-Sinks in erster Linie auf die Optimierung großer generativer Modelle konzentrieren, ist der Einsatz effizienter, speicherbewusster Inferenzschleifen in der Bildverarbeitung (CV) von allgemeiner Bedeutung. Bei der Verarbeitung kontinuierlicher Videostreams mit Ultralytics gewährleistet der Einsatz von Python die Speicherstabilität über lange Zeiträume hinweg, ähnlich wie bei der Verwaltung eines lokalisierten Kontextfensters.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for efficient, real-time edge processing
model = YOLO("yolo26n.pt")
# Process a continuous video stream efficiently without memory overflow
results = model.predict(source="rtsp://continuous_camera_stream", stream=True)
# Iterate through the generator to maintain a stable memory footprint over time
for frame_result in results:
print(f"Detected {len(frame_result.boxes)} objects in the current frame.")
Die Skalierung dieser effizienten, kontinuierlich laufenden Pipelines zur Objekterkennung für den Einsatz in Unternehmen erfordert robuste Verwaltungstools. Entwickler können die Ultralytics nutzen, um die Modellbereitstellung und die automatisierte Verwaltung von Datensätzen zu vereinfachen, sodass Teams mühelos stabile, langlebige Bildverarbeitungsanwendungen entwickeln können.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens