Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

Ingeniería de la representación (RepE)

Descubre la ingeniería de representación (RepE) para supervisar y controlar el comportamiento de la IA. Aprende a manipular los estados internos de Ultralytics para obtener modelos más seguros y controlables.

La ingeniería de representaciones (RepE) es una metodología avanzada en el aprendizaje automático que consiste en analizar y manipular directamente los estados cognitivos internos —o representaciones— de las redes neuronales para supervisar y controlar su comportamiento. Introducida como un enfoque descendente para la seguridad y la alineación de la IA, la RepE aleja el foco de la mera modificación de las entradas o salidas de un modelo. En su lugar, lee y altera los estados internos ocultos de grandes modelos de lenguaje y sistemas de visión durante la inferencia en tiempo real, lo que permite a los desarrolladores orientar el modelo hacia conceptos deseados como la honestidad, la inocuidad o características visuales específicas sin necesidad de volver a entrenar la red.

Cómo funciona la ingeniería de representación

El concepto central de RepE, descrito en detalle en el artículo fundacional «Representation Engineering» del Center for AI Safety, se divide en dos fases principales: lectura y control.

Durante la fase de «lectura», los investigadores analizan cómo las capas ocultas de un modelo codifican conceptos específicos. Al observar los resultados de la función de activación ante diferentes indicaciones o imágenes, los ingenieros pueden aislar la «dirección» específica en el espacio latente que corresponde a un concepto, como la veracidad o una clase de objetos concreta. Esto se basa en gran medida en la investigación sobre interpretabilidad mecánicaAnthropic, que busca realizar ingeniería inversa en las redes neuronales.

En la fase de «control», estas representaciones aisladas se amplifican o se suprimen artificialmente durante la pasada directa. Esta intervención modifica de forma efectiva el comportamiento del modelo sobre la marcha, una técnica que se ajusta estrechamente a las directrices de alineación y seguridad de OpenAI para la creación de sistemas de IA controlables y previsibles.

Distinción entre RepE y conceptos relacionados

Para comprender plenamente el RepE, es importante distinguirlo de otras técnicas habituales utilizadas en la visión artificial y el procesamiento del lenguaje natural:

  • Ingeniería de indicaciones: Esto consiste en elaborar indicaciones textuales o visuales específicas para orientar el resultado del modelo. RepE no modifica la entrada, sino que altera la forma en que el modelo procesa la entrada internamente.
  • Ajuste fino: El ajuste fino actualiza de forma permanente los pesos del modelo utilizando un conjunto de datos personalizado, que suele gestionarse mediante herramientas como la Ultralytics . RepE mantiene intactos los pesos originales y, en su lugar, aplica transformaciones dinámicas a las activaciones en tiempo de ejecución.
  • Ingeniería de características: un paso tradicional de preparación de datos en el que expertos humanos seleccionan manualmente los datos de entrada. Tal y como se indica en la entrada de Wikipedia sobre el aprendizaje de características, RepE trabaja con las características que el modelo ya ha aprendido de forma autónoma.

Aplicaciones en el mundo real

RepE está impulsando avances significativos en la creación de una IA robusta y controlable en múltiples ámbitos, con el respaldo de investigaciones de instituciones como el trabajo del CSAIL del MIT sobre la interpretabilidad de las redes neuronales:

  • Mitigar las alucinaciones de la IA: al identificar la representación interna de la «veracidad», los ingenieros pueden potenciar artificialmente esta señal durante la inferencia. Esto se utiliza de forma activa para reducir las alucinaciones en los modelos de lenguaje grande (LLM), garantizando así que los chatbots proporcionen información objetiva en lugar de inventarse respuestas.
  • Control de sistemas de visión multimodal: En los modelos multimodales, RepE puede utilizarse para controlar el enfoque visual de un agente de IA. Por ejemplo, en la conducción autónoma, amplificar la representación interna de los «riesgos relacionados con los peatones» puede obligar al modelo a dar prioridad a las detecciones críticas para la seguridad en entornos complejos, un ámbito de interés destacado en las publicaciones del IEEE sobre transparencia en la IA.

Implementación de la extracción de conceptos en modelos de visión

Aunque la edición directa de las activaciones requiere intervenciones matemáticas avanzadas, el primer paso de RepE —la lectura de representaciones— puede llevarse a cabo utilizando marcos modernos de aprendizaje profundo. Al utilizar la documentación sobre losPyTorch hooks»PyTorch , los desarrolladores pueden extraer los estados internos de modelos como Ultralytics para analizar cómo se codifican los conceptos visuales.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

A medida que los modelos se vuelven más complejos, las técnicas descritas en la guíaTensorFlow sobre el aprendizaje de representaciones y la investigación sobre seguridadGoogle ponen de relieve que comprender y diseñar estos estados internos será fundamental para la próxima generación de arquitecturas de IA seguras y fiables .

¡Construyamos juntos el futuro de la IA!

Comience su viaje con el futuro del aprendizaje automático