Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Ingénierie de la représentation (RepE)

Découvrez l'ingénierie de la représentation (RepE) pour surveiller et contrôler le comportement de l'IA. Apprenez à manipuler les états internes Ultralytics afin d'obtenir des modèles plus sûrs et plus faciles à piloter.

L'ingénierie de la représentation (RepE) est une méthodologie avancée en apprentissage automatique qui consiste à analyser et à manipuler directement les états cognitifs internes — ou représentations — des réseaux neuronaux afin de surveiller et de contrôler leur comportement. Présentée comme une approche descendante de la sécurité et de l'alignement de l'IA, la RepE ne se concentre plus uniquement sur la modification des entrées ou des sorties d'un modèle. Au contraire, elle lit et modifie les états cachés internes des grands modèles linguistiques et des systèmes de vision pendant l'inférence en temps réel, permettant ainsi aux développeurs d'orienter le modèle vers des concepts souhaités tels que l'honnêteté, l'innocuité ou des caractéristiques visuelles spécifiques sans avoir à réentraîner le réseau.

Comment fonctionne l'ingénierie de la représentation

Le concept central de RepE, décrit en détail dans l'article fondateur « Representation Engineering » publié par le Center for AI Safety, se divise en deux phases principales : la lecture et le contrôle.

Au cours de la phase de « lecture », les chercheurs analysent la manière dont les couches cachées d'un modèle codent des concepts spécifiques. En observant les sorties de la fonction d'activation pour différentes invites ou images, les ingénieurs peuvent isoler la « direction » spécifique dans l'espace latent qui correspond à un concept, tel que la véracité ou une classe d'objets spécifique. Cela s'appuie largement sur recherchesAnthropic sur l'interprétabilité mécaniste, qui visent à procéder à une ingénierie inverse des réseaux neuronaux.

Au cours de la phase de « contrôle », ces représentations isolées sont artificiellement amplifiées ou atténuées lors du passage en avant. Cette intervention modifie efficacement le comportement du modèle en temps réel, une technique qui s'inscrit pleinement dans les directives d'OpenAI en matière d'alignement et de sécurité visant à créer des systèmes d'IA pilotables et prévisibles.

Distinguer RepE des concepts apparentés

Pour bien comprendre le RepE, il est important de le distinguer des autres techniques couramment utilisées en vision par ordinateur et en traitement du langage naturel :

  • Ingénierie des invites: cela consiste à élaborer des entrées textuelles ou visuelles spécifiques afin d'orienter la sortie du modèle. RepE ne modifie pas l'entrée ; il modifie la manière dont le modèle traite l'entrée en interne.
  • Réglage fin: le réglage fin met à jour de manière permanente les poids du modèle à l'aide d'un ensemble de données personnalisé, souvent géré via des outils tels que la Ultralytics . RepE ne modifie pas les poids d'origine, mais applique plutôt des transformations dynamiques aux activations lors de l'exécution.
  • Ingénierie des caractéristiques: une étape traditionnelle de préparation des données dans laquelle des experts sélectionnent manuellement les données d'entrée. Comme l'indique l'article de Wikipédia sur l'apprentissage des caractéristiques, RepE travaille sur les caractéristiques que le modèle a déjà apprises de manière autonome.

Applications concrètes

RepE est à l'origine d'avancées significatives dans la création d'une IA robuste et contrôlable dans de nombreux domaines, grâce notamment aux travaux de recherche menés par des institutions telles que le CSAIL du MIT sur l'interprétabilité des réseaux neuronaux:

  • Limiter les hallucinations de l'IA : en identifiant la représentation interne de la « véracité », les ingénieurs peuvent amplifier artificiellement ce signal lors de l'inférence. Cette technique est largement utilisée pour réduire les hallucinations dans les grands modèles de langage (LLM), garantissant ainsi que les chatbots fournissent des informations factuelles plutôt que d'inventer des réponses.
  • Pilotage des systèmes de vision multimodaux : Dans les modèles multimodaux, RepE peut être utilisé pour contrôler la focalisation visuelle d'un agent IA. Par exemple, dans le domaine de la conduite autonome, le fait d'amplifier la représentation interne des « risques liés aux piétons » peut amener le modèle à donner la priorité aux détections critiques pour la sécurité dans des environnements complexes, un domaine d'intérêt mis en avant dans les publications de l'IEEE sur la transparence de l'IA.

Mise en œuvre de l'extraction de concepts dans les modèles de vision

Alors que la modification directe des activations nécessite des interventions mathématiques avancées, la première étape de RepE — la lecture des représentations — peut être réalisée à l'aide de frameworks modernes d'apprentissage profond. En s'appuyant sur la documentation relative auxPyTorch hooksPyTorch , les développeurs peuvent extraire les états internes de modèles tels que Ultralytics afin d'analyser la manière dont les concepts visuels sont encodés.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

À mesure que les modèles gagnent en complexité, les techniques décrites dans le guideTensorFlow sur l'apprentissage par représentation et les travaux de rechercheGoogle en matière de sécurité soulignent que la compréhension et la conception de ces états internes seront essentielles pour la prochaine génération d'architectures d'IA sûres et fiables.

Construisons ensemble l'avenir de l'IA !

Commencez votre parcours avec l'avenir de l'apprentissage automatique