Yolo Vision Shenzhen
Shenzhen
Jetzt beitreten
Glossar

Self-Attention

Entdecken Sie die Leistungsfähigkeit der Selbstaufmerksamkeit in der KI, die NLP, Computer Vision und Spracherkennung mit kontextbezogener Präzision revolutioniert.

Die Selbstaufmerksamkeit ist ein Mechanismus in Deep-Learning-Modellen, der es ihnen ermöglicht, die Bedeutung verschiedener Elemente in einer Eingabesequenz relativ zueinander zu gewichten. Im Gegensatz zu traditionellen Architekturen, die Daten sequentiell oder lokal verarbeiten oder lokal verarbeiten, ermöglicht die Selbstaufmerksamkeit einem Modell, die gesamte Sequenz auf einmal zu betrachten und zu bestimmen, welche Teile für das Verständnis des aktuellen Elements am wichtigsten sind. relevantesten Teile für das Verständnis des aktuellen Elements sind. Diese Fähigkeit ist das entscheidende Merkmal der Transformer-Architektur, die folgende Bereiche revolutioniert hat Bereiche revolutioniert hat, die von Verarbeitung natürlicher Sprache (NLP) bis hin zu fortgeschrittenem Computer Vision (CV). Durch die Berechnung von Beziehungen zwischen jedem Paar von Elementen in einem Datensatz bietet die Selbstaufmerksamkeit ein globales Verständnis des Kontexts, das das mit älteren Methoden wie rekurrenten neuronalen Rekurrente Neuronale Netze (RNNs).

Wie Self-Attention funktioniert

Das Konzept der Selbstaufmerksamkeit ahmt nach, wie Menschen Informationen verarbeiten, indem sie sich auf bestimmte Details konzentrieren und irrelevantes Rauschen. Bei der Verarbeitung eines Satzes oder eines Bildes ordnet das Modell jedem Element "Aufmerksamkeitspunkte" zu. Element. Diese Werte bestimmen, wie stark der Fokus bei der Kodierung eines bestimmten Wortes oder Pixels auf andere Teile der Eingabe gelegt werden sollte. Wort oder Pixel.

Der Prozess umfasst in der Regel die Erstellung von drei Vektoren für jedes Eingabeelement: eine Abfrage, einen Schlüssel und einen Wert.

  • Abfrage: Stellt das aktuelle Element dar, das nach relevanten Informationen fragt.
  • Schlüssel: Dient als Bezeichner für andere Elemente in der Sequenz.
  • Wert: Enthält den eigentlichen Informationsgehalt.

Das Modell vergleicht die Abfrage eines Elements mit den Schlüsseln aller anderen, um die Kompatibilität zu berechnen. Diese Kompatibilitätswerte werden mithilfe einer Softmax-Funktion normalisiert, um Gewichte zu erzeugen. Schließlich werden diese Gewichte auf die Werte angewandt, um eine neue, kontextabhängige Darstellung zu erzeugen. Diese effiziente parallele Verarbeitung ermöglicht das Training von massiven Large Language Models (LLMs) und leistungsstarken Bildverarbeitungsmodellen unter Verwendung moderner GPUs. Für ein tieferen visuellen Einblick, bieten Ressourcen wie Jay Alammar's Illustrated Transformer bieten eine ausgezeichnete Intuition.

Selbstaufmerksamkeit vs. allgemeine Aufmerksamkeit

Auch wenn die Begriffe oft in engem Zusammenhang verwendet werden, ist es hilfreich, die Selbstaufmerksamkeit von dem weiter gefassten Aufmerksamkeitsmechanismus zu unterscheiden.

  • Selbstaufmerksamkeit: Die Abfrage, der Schlüssel und der Wert stammen alle aus der gleichen Eingabesequenz. Das Ziel ist es, interne Beziehungen zu lernen, z. B. wie sich Wörter in einem Satz zueinander verhalten (z. B. zu verstehen, was "es" sich in einem Absatz bezieht).
  • Cross-Attention: Häufig verwendet in Sequenz-zu-Sequenz-Modellen verwendet, wobei die Abfrage von einer Sequenz (wie ein Decoder), während der Schlüssel und der Wert von einer anderen (wie ein Encoder) stammen. Dies ist in der maschinellen Übersetzung üblich, wo die Ausgabe in der Zielsprache an die Eingabe in der Ausgangssprache angepasst wird.

Anwendungsfälle in der Praxis

Die Fähigkeit, weitreichende Abhängigkeiten zu erfassen, hat die Selbstbeobachtung in der modernen Künstliche Intelligenz (KI).

  1. Kontextuelle Textanalyse: Im NLP löst die Selbstbeobachtung Mehrdeutigkeiten. Betrachten Sie das Wort "Ufer". In dem Satz "Er fischte am Ufer" assoziiert das Modell mit Hilfe der Selbstaufmerksamkeit "Bank" mit "fischte" und "Fluss" und unterscheidet es so von einem Finanzinstitut. Diese Tools wie Google Translate und Chatbots, die auf Generative KI.
  2. Globales Bildverstehen: In der Computer Vision werden Modelle wie der Vision Transformer (ViT) Bilder in Bereiche aufteilen in Flecken und nutzen die Selbstaufmerksamkeit, um entfernte Teile einer Szene miteinander in Beziehung zu setzen. Dies ist entscheidend für die Objekterkennung in unübersichtlichen Umgebungen. Die Ultralytics RT-DETR (Echtzeit-Detektions-Transformator) nutzt dies, um eine hohe Genauigkeit zu erreichen, indem er durch effektive Verwaltung des globalen Kontexts, im Gegensatz zu Standard Faltungsneuronale Netze (CNNs) die sich auf lokale Merkmale konzentrieren.

Code-Beispiel

Das folgende Python demonstriert, wie man ein Transformator-basiertes Modell lädt und verwendet, das auf Selbstbeobachtung beruht zur Inferenz unter Verwendung der ultralytics Paket.

from ultralytics import RTDETR

# Load the RT-DETR model, which uses self-attention for object detection
model = RTDETR("rtdetr-l.pt")

# Perform inference on an image to detect objects with global context
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting bounding boxes and class probabilities
results[0].show()

Bedeutung in modernen Architekturen

Die Selbstaufmerksamkeit wurde in der bahnbrechenden Arbeit "Attention Is All You Need" von Google vorgestellt. Es das Problem des verschwindenden Gradienten, das das frühere Deep-Learning-Architekturen plagte, und ermöglichte die Erstellung von Grundmodelle wie GPT-4.

Aufmerksamkeitsbasierte Modelle sind zwar leistungsfähig, aber auch sehr rechenintensiv. Für viele Echtzeitanwendungen, effiziente CNN-basierte Modelle wie YOLO11 weiterhin die aufgrund ihrer Geschwindigkeit und ihres geringen Speicherbedarfs die beste Wahl. Doch hybride Ansätze und optimierte Transformers verschieben weiterhin die Grenzen des maschinellen Lernens. Zukünftig werden neue Architekturen wie YOLO26 darauf ab, das Beste aus beiden Welten zu integrieren und End-to-End-Funktionen auf der Ultralytics anzubieten. Frameworks wie PyTorch und TensorFlow bieten die Bausteine für Entwickler, um mit mit diesen fortgeschrittenen Selbstbeobachtungsschichten zu experimentieren.

Werden Sie Mitglied der Ultralytics

Gestalten Sie die Zukunft der KI mit. Vernetzen Sie sich, arbeiten Sie zusammen und wachsen Sie mit globalen Innovatoren

Jetzt beitreten