Steering Vectors

Entdecke, wie Steering Vectors die Echtzeitsteuerung neuronaler Netze ohne Umschulung ermöglichen. Lerne Aktivierungs-Engineering mit Ultralytics YOLO26.

Steering vectors repräsentieren aussagekräftige, mathematische Richtungen innerhalb des versteckten Aktivierungsraums eines neural network, die übergeordneten Konzepten wie "Höflichkeit", "Wahrhaftigkeit" oder spezifischen visuellen Merkmalen entsprechen. Indem Entwickler diese Vektoren während des Forward-Passes künstlich in die internen Zustände des Modells einspeisen oder von diesen subtrahieren, können sie das Verhalten des Modells vorhersehbar steuern und verändern, ohne die zugrunde liegenden Gewichte zu aktualisieren. Diese Technik, die fundamental auf Activation Engineering basiert, ermöglicht eine kostenlose Kontrolle von deep learning-Systemen zur Inferenzzeit, die von large language models bis hin zu Vision-Architekturen reichen.

Link to this sectionWie Steering Vectors funktionieren#

Um einen Steering Vector zu erstellen, verwenden Forscher üblicherweise eine Methode namens Contrastive Activation Addition (CAA). Dabei wird eine Reihe von kontrastiven Datenpaaren – zum Beispiel ein Prompt, der das Modell bittet, "hilfreich" zu sein, im Vergleich zu einem, das es bittet, "schädlich" zu sein – durch das Netzwerk geleitet. Der Unterschied in den Ausgaben der activation function zwischen diesen Paaren wird über mehrere Samples gemittelt, um die spezifische geometrische Richtung zu isolieren, die dieses Konzept im tensor space repräsentiert.

Während der real-time inference wird dieser Vektor unter Verwendung einfacher PyTorch tensor addition zu den versteckten Zuständen in bestimmten Schichten addiert oder von diesen subtrahiert. Durch die Skalierung der Stärke des Vektors können Praktiker die Intensität des injizierten Verhaltens feinabstimmen.

Link to this sectionUnterscheidung von Steering Vectors zu verwandten Konzepten#

Um zu verstehen, wie Steering Vectors in die breitere machine learning-Landschaft passen, muss man sie von ähnlichen Methoden unterscheiden:

Task Vectors: Während Task Vectors im Gewichtsraum agieren, indem sie die tatsächlichen model weights nach dem Training modifizieren, um Fähigkeiten zu verschmelzen, arbeiten Steering Vectors rein im Aktivierungsraum zur Laufzeit, wobei die ursprünglichen Gewichte völlig unberührt bleiben.
Representation Engineering (RepE): RepE ist der übergeordnete methodische Rahmen zum Lesen und Steuern interner kognitiver Zustände, der intensiv von Organisationen wie dem Center for AI Safety erforscht wird. Steering Vectors sind die spezifischen mathematischen Werkzeuge, die in der Kontrollphase von RepE eingesetzt werden.
Prompt Engineering: Prompting versucht, das Verhalten durch Modifizierung des Eingabetextes oder Bildes des Benutzers zu lenken. Steering Vectors umgehen den Eingabe-Flaschenhals und manipulieren direkt die interne kognitive Verarbeitung des Modells.
Fine-Tuning: Traditionelle Alignment-Methoden wie Reinforcement Learning from Human Feedback (RLHF) verändern das Modell permanent durch Gradientenabstieg, was einen hohen Rechenaufwand erfordert, der oft über Cloud-Tools wie die Ultralytics Platform verwaltet wird. Steering Vectors vermeiden diesen Rechenaufwand vollständig.

Link to this sectionReale Anwendungen in der KI#

Die Fähigkeit, Modelle dynamisch zu steuern, hat bedeutende Fortschritte in modernen artificial intelligence-Pipelines ermöglicht:

Enhancing AI Safety: Durch die Isolierung des Steering Vectors, der mit "Ablehnung" oder "Harmlosigkeit" assoziiert ist, können Ingenieure Modelle dazu zwingen, schädliche Anweisungen abzulehnen. Unterstützt durch OpenAI's alignment research und Interpretierbarkeitsstudien von Anthropic kann das Steuern spezifischer Merkmale die Konversationspersönlichkeit einer KI drastisch verändern und strenge Sicherheitsvorgaben gewährleisten.
Controlling Reasoning Models: Aktuelle Studien zu fortgeschrittenen Denkarchitekturen zeigen, dass Steering Vectors interne logische Ketten modulieren können. Praktiker können die Tendenz eines Modells erhöhen, Unsicherheit auszudrücken oder bei komplexen Problemlösungen Fehler zu korrigieren.
Mitigating AI Bias: Durch die Extraktion des Vektors, der einen spezifischen gesellschaftlichen Bias repräsentiert, können Entwickler diese Richtung während der Generierung subtrahieren. Dies neutralisiert den Bias effektiv und verbessert die Fairness, ohne neu trainieren zu müssen, während gleichzeitig die Wahrscheinlichkeit von hallucination in LLMs reduziert wird.
Steering Computer Vision Systems: In Vision-Modellen können Steering Vectors auf Feature Maps angewendet werden, um die Sensitivität des Netzwerks gegenüber kritischen Zielen künstlich zu erhöhen. Zum Beispiel kann ein object detection-Modell so gesteuert werden, dass es das Auffinden von Fußgängern bei widrigen Wetterbedingungen priorisiert.

Link to this sectionAnwendung von Steering Vectors mit PyTorch#

Unten findest du ein ausführbares Beispiel für die Anwendung einer Aktivierungssteuerung bei einem Ultralytics YOLO26-Modell während eines Forward-Passes. Durch die Nutzung von PyTorch forward hooks kannst du benutzerdefinierte Vektoren direkt in die versteckten Schichten einspeisen.

import torch
from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")


# Define a hook function to steer the internal activations
def steer_activations_hook(module, input, output):
    # Create a steering vector matching the output shape (for demonstration purposes)
    # In practice, this vector is pre-computed via Contrastive Activation Addition (CAA)
    steering_vector = torch.ones_like(output) * 0.1

    # Add the steering vector to the model's hidden states to alter behavior at inference
    return output + steering_vector


# Attach the hook to a middle layer (e.g., layer index 5) to inject the vector
handle = model.model.model[5].register_forward_hook(steer_activations_hook)

# Run inference on an image with the dynamically steered activations
results = model("https://ultralytics.com/images/bus.jpg")

# Remove the hook to restore the model to its original unsteered state
handle.remove()

Steering Vectors

Link to this sectionWie Steering Vectors funktionieren#

Link to this sectionUnterscheidung von Steering Vectors zu verwandten Konzepten#

Link to this sectionReale Anwendungen in der KI#

Link to this sectionAnwendung von Steering Vectors mit PyTorch#

Explore solutions

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

KI in der Robotik

KI in der Logistik

KI im Einzelhandel

KI im Gesundheitswesen

KI in der Fertigung

KI in der Automobilbranche

KI in der Landwirtschaft

Lass uns gemeinsam die Zukunft der KI bauen!