Entdecken Sie Representation Engineering (RepE) zur Überwachung und Steuerung des Verhaltens von KI. Erfahren Sie, wie Sie die internen Zustände von Ultralytics manipulieren können, um sicherere, steuerbare Modelle zu erhalten.
Representation Engineering (RepE) ist eine fortschrittliche Methode im maschinellen Lernen, bei der die internen kognitiven Zustände – oder Repräsentationen – neuronaler Netze analysiert und direkt manipuliert werden, um deren Verhalten zu überwachen und zu steuern. RepE wurde als Top-down-Ansatz für KI-Sicherheit und -Ausrichtung eingeführt und verlagert den Fokus weg von der bloßen Modifizierung der Ein- oder Ausgänge eines Modells. Stattdessen liest und verändert es die internen verborgenen Zustände von großen Sprachmodellen und Bildverarbeitungssystemen während der Echtzeit-Inferenz, wodurch Entwickler das Modell auf gewünschte Konzepte wie Ehrlichkeit, Harmlosigkeit oder bestimmte visuelle Merkmale ausrichten können, ohne das Netzwerk neu zu trainieren .
Das Kernkonzept von RepE, das in der grundlegenden Veröffentlichung „Representation Engineering“ des Center for AI Safety ausführlich beschrieben wird, lässt sich in zwei Hauptphasen unterteilen: Lesen und Steuerung.
Während der „Lese“-Phase analysieren Forscher, wie die verborgenen Schichten eines Modells bestimmte Konzepte kodieren. Durch die Beobachtung der Ausgabewerte der Aktivierungsfunktionen bei verschiedenen Eingabeaufforderungen oder Bildern können Ingenieure die spezifische „Richtung“ im latenten Raum isolieren, die einem Konzept entspricht, wie beispielsweise Wahrhaftigkeit oder einer bestimmten Objektklasse. Dies stützt sich in hohem Maße auf die ForschungAnthropic zur mechanistischen Interpretierbarkeit, die darauf abzielt, neuronale Netze zurückzuentwickeln.
In der „Kontrollphase“ werden diese isolierten Darstellungen während des Vorwärtsdurchlaufs künstlich verstärkt oder unterdrückt. Dieser Eingriff verändert das Verhalten des Modells effektiv in Echtzeit – eine Technik, die eng mit den Ausrichtungs- und Sicherheitsrichtlinien von OpenAI für die Entwicklung steuerbarer, vorhersehbarer KI-Systeme im Einklang steht.
Um RepE vollständig zu verstehen, ist es wichtig, es von anderen gängigen Techniken zu unterscheiden, die in den Bereichen Bildverarbeitung und Verarbeitung natürlicher Sprache zum Einsatz kommen:
RepE treibt bedeutende Fortschritte bei der Entwicklung robuster, kontrollierbarer KI in verschiedenen Bereichen voran, unterstützt durch Forschungsarbeiten von Einrichtungen wie dem MIT CSAIL zur Interpretierbarkeit neuronaler Netze:
Während die direkte Bearbeitung von Aktivierungen fortgeschrittene mathematische Verfahren erfordert, lässt sich der erste Schritt von RepE – das Auslesen von Repräsentationen – mithilfe moderner Deep-Learning-Frameworks durchführen. Durch die Nutzung PyTorch DokumentationPyTorch Hooks können Entwickler die internen Zustände von Modellen wie Ultralytics extrahieren, um zu analysieren, wie visuelle Konzepte kodiert werden.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
Da Modelle immer komplexer werden, wird in den Techniken, die TensorFlow zum Repräsentationslernen und in der SicherheitsforschungGoogle beschrieben werden, betont, dass das Verständnis und die Gestaltung dieser internen Zustände für die nächste Generation sicherer, zuverlässiger KI- Architekturen von entscheidender Bedeutung sein werden.
Beginnen Sie Ihre Reise mit der Zukunft des maschinellen Lernens