Découvrez l'ingénierie de la représentation (RepE) pour surveiller et contrôler le comportement de l'IA. Apprenez à manipuler les états internes Ultralytics afin d'obtenir des modèles plus sûrs et plus faciles à piloter.
L'ingénierie de la représentation (RepE) est une méthodologie avancée en apprentissage automatique qui consiste à analyser et à manipuler directement les états cognitifs internes — ou représentations — des réseaux neuronaux afin de surveiller et de contrôler leur comportement. Présentée comme une approche descendante de la sécurité et de l'alignement de l'IA, la RepE ne se concentre plus uniquement sur la modification des entrées ou des sorties d'un modèle. Au contraire, elle lit et modifie les états cachés internes des grands modèles linguistiques et des systèmes de vision pendant l'inférence en temps réel, permettant ainsi aux développeurs d'orienter le modèle vers des concepts souhaités tels que l'honnêteté, l'innocuité ou des caractéristiques visuelles spécifiques sans avoir à réentraîner le réseau.
Le concept central de RepE, décrit en détail dans l'article fondateur « Representation Engineering » publié par le Center for AI Safety, se divise en deux phases principales : la lecture et le contrôle.
Au cours de la phase de « lecture », les chercheurs analysent la manière dont les couches cachées d'un modèle codent des concepts spécifiques. En observant les sorties de la fonction d'activation pour différentes invites ou images, les ingénieurs peuvent isoler la « direction » spécifique dans l'espace latent qui correspond à un concept, tel que la véracité ou une classe d'objets spécifique. Cela s'appuie largement sur recherchesAnthropic sur l'interprétabilité mécaniste, qui visent à procéder à une ingénierie inverse des réseaux neuronaux.
Au cours de la phase de « contrôle », ces représentations isolées sont artificiellement amplifiées ou atténuées lors du passage en avant. Cette intervention modifie efficacement le comportement du modèle en temps réel, une technique qui s'inscrit pleinement dans les directives d'OpenAI en matière d'alignement et de sécurité visant à créer des systèmes d'IA pilotables et prévisibles.
Pour bien comprendre le RepE, il est important de le distinguer des autres techniques couramment utilisées en vision par ordinateur et en traitement du langage naturel :
RepE est à l'origine d'avancées significatives dans la création d'une IA robuste et contrôlable dans de nombreux domaines, grâce notamment aux travaux de recherche menés par des institutions telles que le CSAIL du MIT sur l'interprétabilité des réseaux neuronaux:
Alors que la modification directe des activations nécessite des interventions mathématiques avancées, la première étape de RepE — la lecture des représentations — peut être réalisée à l'aide de frameworks modernes d'apprentissage profond. En s'appuyant sur la documentation relative auxPyTorch hooksPyTorch , les développeurs peuvent extraire les états internes de modèles tels que Ultralytics afin d'analyser la manière dont les concepts visuels sont encodés.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
À mesure que les modèles gagnent en complexité, les techniques décrites dans le guideTensorFlow sur l'apprentissage par représentation et les travaux de rechercheGoogle en matière de sécurité soulignent que la compréhension et la conception de ces états internes seront essentielles pour la prochaine génération d'architectures d'IA sûres et fiables.
Commencez votre parcours avec l'avenir de l'apprentissage automatique