Explore a Engenharia de Representação (RepE) para monitorizar e controlar o comportamento da IA. Saiba como manipular os estados internos do Ultralytics para obter modelos mais seguros e controláveis.
A Engenharia de Representação (RepE) é uma metodologia avançada no âmbito da aprendizagem automática que envolve a análise e a manipulação direta dos estados cognitivos internos — ou representações — das redes neurais, com o objetivo de monitorizar e controlar o seu comportamento. Introduzida como uma abordagem descendente à segurança e alinhamento da IA, a RepE desvia o foco da mera modificação das entradas ou saídas de um modelo. Em vez disso, lê e altera os estados internos ocultos de grandes modelos de linguagem e sistemas de visão durante a inferência em tempo real, permitindo aos programadores orientar o modelo para conceitos desejados, como honestidade, inofensividade ou características visuais específicas, sem necessidade de retreinar a rede.
O conceito central do RepE, descrito em pormenor no artigo fundamental sobre Engenharia da Representação, publicado pelo Center for AI Safety, divid-se em duas fases principais: leitura e controlo.
Durante a fase de «leitura», os investigadores analisam a forma como as camadas ocultas de um modelo codificam conceitos específicos. Ao observar os resultados da função de ativação em diferentes prompts ou imagens, os engenheiros conseguem isolar a «direção» específica no espaço latente que corresponde a um conceito, como a veracidade ou uma classe específica de objetos. Isto baseia-se fortemente na na investigação sobre interpretabilidade mecanicistaAnthropic, que procura fazer engenharia reversa em redes neurais.
Na fase de «controlo», estas representações isoladas são artificialmente amplificadas ou suprimidas durante a passagem direta. Esta intervenção altera efetivamente o comportamento do modelo em tempo real, uma técnica que está em estreita sintonia com as diretrizes de alinhamento e segurança da OpenAI para a criação de sistemas de IA orientáveis e previsíveis.
Para compreender plenamente o RepE, é importante distingui-lo de outras técnicas comuns utilizadas na visão computacional e no processamento de linguagem natural:
O RepE está a impulsionar avanços significativos na criação de IA robusta e controlável em vários domínios, apoiado por investigação de instituições como a investigação do MIT CSAIL sobre a interpretabilidade das redes neurais:
Embora a edição direta das ativações exija intervenções matemáticas avançadas, o primeiro passo do RepE — a leitura de representações — pode ser realizado utilizando estruturas modernas de aprendizagem profunda. Ao recorrer à documentação sobrePyTorch hooks»PyTorch , os programadores podem extrair os estados internos de modelos como Ultralytics para analisar a forma como os conceitos visuais são codificados.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
À medida que os modelos se tornam mais complexos, as técnicas descritas no guiaTensorFlow sobre aprendizagem de representações e na investigação sobre segurançaGoogle salientam que a compreensão e a engenharia destes estados internos serão fundamentais para a próxima geração de arquiteturas de IA seguras e fiáveis .
Comece sua jornada com o futuro do aprendizado de máquina