인간 피드백을 통한 강화 학습(RLHF)이 어떻게 AI 모델을 인간의 가치에 부합시켜 더 안전하고 스마트한 AI를 만드는지 알아보세요.
인간 피드백을 통한 강화 학습(RLHF)은 머신러닝의 정교한 프레임워크입니다. 머신러닝(ML)의 정교한 프레임워크로 인공 지능(AI) 시스템 인간의 가치, 선호도, 의도에 맞게 조정하는 정교한 프레임워크입니다. 기존의 모델을 훈련시키는 지도 학습과 달리 정적 데이터 세트를 복제하도록 모델을 훈련시키는 기존의 지도 학습과 달리, RLHF는 인간 평가자가 모델 결과물의 순위를 매기는 동적 피드백 루프를 도입합니다. 이 순위 데이터는 '보상 모델'을 훈련하는 데 사용되며, 이후 AI가 더 유용하고 보다 유용하고 안전하며 정확한 응답을 생성하도록 안내합니다. 이 기술은 최신 대규모 언어 모델(LLM)의 개발에 필수적인 것으로 입증되었습니다. 대규모 언어 모델(LLM) 및 강력한 기반이 되는 생성형 AI 모델이 단순히 다음 단어나 픽셀을 통계적으로 예측하는 것이 아니라 사용자의 기대에 따라 작동하도록 보장합니다.
RLHF를 통해 모델을 정렬하는 프로세스는 일반적으로 3단계 파이프라인을 따르며, 원시 예측 기능과 미묘한 인간 상호 작용 사이의 간극을 메워줍니다. 예측 기능과 미묘한 인간 상호 작용 사이의 간극을 메우는 3단계 파이프라인을 따릅니다.
두 접근 방식 모두 보상을 극대화하는 데 의존하지만, 보상의 출처가 크게 다릅니다.
RLHF는 특히 높은 안전 기준과 미묘한 이해가 필요한 영역에서 AI 시스템이 세상과 상호작용하는 방식을 변화시켰습니다. 미묘한 이해가 필요한 영역에서 특히 그렇습니다.
시각적 애플리케이션에서 RLHF 에이전트는 주로 컴퓨터 비전(CV)에 의존합니다. 환경의 상태를 인식합니다. 다음과 같은 강력한 감지기는 YOLO11와 같은 강력한 감지기는 는 시스템의 '눈' 역할을 하여 정책 네트워크가 조치를 선택하는 데 사용하는 구조화된 관찰 정보(예: "왼쪽에서 보행자 감지됨")를 제공합니다. 왼쪽에서 보행자 감지" 등)을 제공하여 정책 네트워크가 조치를 선택하는 데 사용할 수 있습니다.
다음 예는 YOLO 모델이 에이전트에 대한 환경 상태를 제공하는 단순화된 개념을 보여줍니다. 에이전트. 전체 RLHF 루프에서 '보상'은 상담원의 신뢰도나 정확도에 대한 인간의 선호도에 대해 학습된 모델이 에 따라 '보상'이 결정됩니다.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
개발자는 강력한 인식 모델과 사람의 피드백을 통해 조정된 정책을 결합하여 다음과 같은 시스템을 구축할 수 있습니다. 지능적일 뿐만 아니라 다음을 엄격하게 검사하는 시스템을 구축할 수 있습니다. AI 안전. 다음과 같은 확장 가능한 감독에 대한 연구 헌법 AI, 와 같은 확장 가능한 감독에 대한 연구는 대규모 인간 주석에 대한 의존도를 줄이기 위해 이 분야를 계속 발전시키고 있습니다.

