AI의 동작을 모니터링하고 제어하기 위한 표현 공학(RepE)을 살펴보세요. 더 안전하고 제어 가능한 모델을 만들기 위해 Ultralytics 내부 상태를 조작하는 방법을 알아보세요.
표현 공학(RepE)은 신경망의 내부 인지 상태, 즉 표현을 분석하고 직접 조작하여 신경망의 동향을 모니터링하고 제어하는 기계 학습 분야의 첨단 방법론입니다. AI 안전성과 정렬을 위한 하향식 접근법으로 도입된 RepE는 단순히 모델의 입력이나 출력을 수정하는 데서 초점을 옮깁니다. 대신, 실시간 추론 과정에서 대규모 언어 모델과 비전 시스템의 내부 숨겨진 상태를 읽어내고 변경함으로써, 개발자가 네트워크를 재훈련하지 않고도 모델을 정직성, 무해성 또는 특정 시각적 특징과 같은 원하는 개념으로 유도할 수 있게 합니다.
AI 안전 센터(Center for AI Safety)의 기초 논문인 ‘표현 공학(Representation Engineering)’에서 상세히 설명된 RepE의 핵심 개념은 읽기(reading)와 제어(control)라는 두 가지 주요 단계로 나뉩니다.
“리딩(reading)” 단계에서 연구자들은 모델의 숨겨진 층이 특정 개념을 어떻게 인코딩하는지 분석합니다. 다양한 프롬프트나 이미지에 대한 활성화 함수 출력을 관찰함으로써, 엔지니어들은 진실성이나 특정 객체 클래스와 같은 개념에 해당하는 잠재 공간 내의 특정 “방향”을 분리해 낼 수 있습니다. 이는 신경망을 리버스 엔지니어링하려는 Anthropic 기계론적 해석 가능성 연구에 크게 기반을 두고 있습니다.
“제어” 단계에서는 이러한 분리된 표현들이 전파 과정에서 인위적으로 증폭되거나 억제됩니다. 이러한 개입은 모델의 동작을 실시간으로 효과적으로 변경하며, 이는 조절 가능하고 예측 가능한 AI 시스템을 구축하기 위한 OpenAI의 정렬 및 안전 지침과 밀접하게 부합하는 기술입니다.
RepE를 완전히 이해하려면, 이를 컴퓨터 비전 및 자연어 처리 분야에서 흔히 사용되는 다른 기법들과 구분하는 것이 중요합니다:
RepE는 다음과 같은 기관들의 연구를 바탕으로, 다양한 분야에서 견고하고 제어 가능한 AI를 개발하는 데 있어 획기적인 진전을 이끌고 있습니다. 예를 들어, MIT CSAIL의 신경망 해석 가능성에 관한 연구:
활성화 과정을 직접 편집하려면 고도의 수학적 처리가 필요하지만, RepE의 첫 단계인 표현 읽기는 최신 딥러닝 프레임워크를 사용하여 수행할 수 있습니다. 개발자는 PyTorch 훅(PyTorch hooks) 문서를 활용하여 Ultralytics 같은 모델의 내부 상태를 추출하고, 시각적 개념이 어떻게 인코딩되는지 분석할 수 있습니다.
from ultralytics import YOLO
# Load the recommended Ultralytics YOLO26 model for state-of-the-art vision tasks
model = YOLO("yolo26n.pt")
# Access the underlying PyTorch model to register a forward hook
pytorch_model = model.model
internal_representations = []
# Define a hook function to capture the output of a specific hidden layer
def hook_fn(module, input, output):
internal_representations.append(output)
# Attach the hook to a middle layer (e.g., layer index 5) to read representations
handle = pytorch_model.model[5].register_forward_hook(hook_fn)
# Run inference on an image to capture the cognitive state of the model
results = model("https://ultralytics.com/images/bus.jpg")
# The captured representations can now be analyzed for RepE steering
print(f"Captured latent representation shape: {internal_representations[0].shape}")
# Remove the hook to clean up memory
handle.remove()
모델이 점점 더 복잡해짐에 따라, TensorFlow 표현 학습 가이드와 Google 안전성 연구에서 설명된 기법들은 이러한 내부 상태를 이해하고 설계하는 것이 차세대 안전하고 신뢰할 수 있는 AI 아키텍처를 구축하는 데 있어 핵심적일 것임을 강조하고 있습니다.
미래의 머신러닝 여정을 시작하세요