Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

Engenharia de Representação (RepE)

Explore a Engenharia de Representação (RepE) para monitorizar e controlar o comportamento da IA. Saiba como manipular os estados internos do Ultralytics para obter modelos mais seguros e controláveis.

A Engenharia de Representação (RepE) é uma metodologia avançada no âmbito da aprendizagem automática que envolve a análise e a manipulação direta dos estados cognitivos internos — ou representações — das redes neurais, com o objetivo de monitorizar e controlar o seu comportamento. Introduzida como uma abordagem descendente à segurança e alinhamento da IA, a RepE desvia o foco da mera modificação das entradas ou saídas de um modelo. Em vez disso, lê e altera os estados internos ocultos de grandes modelos de linguagem e sistemas de visão durante a inferência em tempo real, permitindo aos programadores orientar o modelo para conceitos desejados, como honestidade, inofensividade ou características visuais específicas, sem necessidade de retreinar a rede.

Como funciona a engenharia de representação

O conceito central do RepE, descrito em pormenor no artigo fundamental sobre Engenharia da Representação, publicado pelo Center for AI Safety, divid-se em duas fases principais: leitura e controlo.

Durante a fase de «leitura», os investigadores analisam a forma como as camadas ocultas de um modelo codificam conceitos específicos. Ao observar os resultados da função de ativação em diferentes prompts ou imagens, os engenheiros conseguem isolar a «direção» específica no espaço latente que corresponde a um conceito, como a veracidade ou uma classe específica de objetos. Isto baseia-se fortemente na na investigação sobre interpretabilidade mecanicistaAnthropic, que procura fazer engenharia reversa em redes neurais.

Na fase de «controlo», estas representações isoladas são artificialmente amplificadas ou suprimidas durante a passagem direta. Esta intervenção altera efetivamente o comportamento do modelo em tempo real, uma técnica que está em estreita sintonia com as diretrizes de alinhamento e segurança da OpenAI para a criação de sistemas de IA orientáveis e previsíveis.

Distinguir o RepE de conceitos relacionados

Para compreender plenamente o RepE, é importante distingui-lo de outras técnicas comuns utilizadas na visão computacional e no processamento de linguagem natural:

  • Engenharia de prompts: Isto implica a criação de entradas textuais ou visuais específicas para orientar a saída do modelo. O RepE não altera a entrada; altera a forma como o modelo processa a entrada internamente.
  • Ajuste fino: O ajuste fino atualiza permanentemente os pesos do modelo utilizando um conjunto de dados personalizado, frequentemente gerido através de ferramentas como a Ultralytics . O RepE mantém os pesos originais inalterados, aplicando, em vez disso, transformações dinâmicas às ativações em tempo de execução.
  • Engenharia de características: Uma etapa tradicional de preparação de dados em que especialistas selecionam manualmente os dados de entrada. Conforme referido na entrada da Wikipédia sobre aprendizagem de características, o RepE trabalha com as características que o modelo aprendeu de forma autónoma.

Aplicações no Mundo Real

O RepE está a impulsionar avanços significativos na criação de IA robusta e controlável em vários domínios, apoiado por investigação de instituições como a investigação do MIT CSAIL sobre a interpretabilidade das redes neurais:

  • Mitigar as alucinações da IA: Ao identificar a representação interna da «veracidade», os engenheiros podem amplificar artificialmente este sinal durante a inferência. Esta técnica é utilizada ativamente para reduzir as alucinações nos modelos de linguagem de grande escala (LLMs), garantindo que os chatbots forneçam informações factuais em vez de inventarem respostas.
  • Orientação de sistemas de visão multimodal: Em modelos multimodais, o RepE pode ser utilizado para controlar o foco visual de um agente de IA. Por exemplo, na condução autónoma, amplificar a representação interna de «riscos relacionados com peões» pode obrigar o modelo a dar prioridade a deteções críticas para a segurança em ambientes complexos, uma área de foco destacada nas publicações do IEEE sobre transparência da IA.

Implementação da extração de conceitos em modelos de visão

Embora a edição direta das ativações exija intervenções matemáticas avançadas, o primeiro passo do RepE — a leitura de representações — pode ser realizado utilizando estruturas modernas de aprendizagem profunda. Ao recorrer à documentação sobrePyTorch hooks»PyTorch , os programadores podem extrair os estados internos de modelos como Ultralytics para analisar a forma como os conceitos visuais são codificados.

from ultralytics import YOLO

# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")

# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []


# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
    internal_representations.append(output)


# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)

# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")

# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")

# Remove the hook to clean up memory
handle.remove()

À medida que os modelos se tornam mais complexos, as técnicas descritas no guiaTensorFlow sobre aprendizagem de representações e na investigação sobre segurançaGoogle salientam que a compreensão e a engenharia destes estados internos serão fundamentais para a próxima geração de arquiteturas de IA seguras e fiáveis .

Vamos construir juntos o futuro da IA!

Comece sua jornada com o futuro do aprendizado de máquina