Yolo 비전 선전
선전
지금 참여하기
용어집

인간 피드백을 통한 강화 학습(RLHF)

인간 피드백을 통한 강화 학습(RLHF)이 어떻게 AI 모델을 인간의 가치에 부합시켜 더 안전하고 스마트한 AI를 만드는지 알아보세요.

인간 피드백을 통한 강화 학습(RLHF)은 머신러닝의 정교한 프레임워크입니다. 머신러닝(ML)의 정교한 프레임워크로 인공 지능(AI) 시스템 인간의 가치, 선호도, 의도에 맞게 조정하는 정교한 프레임워크입니다. 기존의 모델을 훈련시키는 지도 학습과 달리 정적 데이터 세트를 복제하도록 모델을 훈련시키는 기존의 지도 학습과 달리, RLHF는 인간 평가자가 모델 결과물의 순위를 매기는 동적 피드백 루프를 도입합니다. 이 순위 데이터는 '보상 모델'을 훈련하는 데 사용되며, 이후 AI가 더 유용하고 보다 유용하고 안전하며 정확한 응답을 생성하도록 안내합니다. 이 기술은 최신 대규모 언어 모델(LLM)의 개발에 필수적인 것으로 입증되었습니다. 대규모 언어 모델(LLM) 및 강력한 기반이 되는 생성형 AI 모델이 단순히 다음 단어나 픽셀을 통계적으로 예측하는 것이 아니라 사용자의 기대에 따라 작동하도록 보장합니다.

RLHF 워크플로

RLHF를 통해 모델을 정렬하는 프로세스는 일반적으로 3단계 파이프라인을 따르며, 원시 예측 기능과 미묘한 인간 상호 작용 사이의 간극을 메워줍니다. 예측 기능과 미묘한 인간 상호 작용 사이의 간극을 메우는 3단계 파이프라인을 따릅니다.

  1. 감독 미세 조정(SFT): 이 프로세스는 일반적으로 사전 학습된 기초 모델로 시작합니다. 개발자는 소규모의 고품질 데이터 세트에 대한 미세 조정을 통해 (대화 상자 또는 데모와 같은) 선별된 예제를 미세 조정하여 모델에 원하는 작업의 기본 형식을 가르칩니다.
  2. 보상 모델 트레이닝: 이것이 RLHF의 핵심입니다. 인간 어노테이터는 동일한 입력에 대해 모델이 생성한 여러 결과물을 검토하고 생성된 여러 결과물을 검토하고 최고부터 최하위까지 순위를 매깁니다. 이 데이터 라벨링 프로세스는 다음과 같은 선호도. 보상 모델로 알려진 별도의 신경망이 보상 모델로 알려진 별도의 신경망이 이 비교 데이터를 학습하여 사람의 판단을 모방한 스칼라 보상 점수를 예측합니다.
  3. 강화 학습 최적화: 원래 모델은 효과적으로 AI 에이전트가 됩니다. AI 에이전트가 됩니다. 보상 모델을 보상 모델을 가이드 삼아 다음과 같은 알고리즘을 사용합니다. 근사 정책 최적화(PPO) 와 같은 알고리즘은 에이전트의 파라미터를 조정하여 예상 보상을 최대화합니다. 이 단계에서는 모델의 정책을 다음과 같이 근본적으로 변경합니다. 학습된 인간의 선호도에 부합하는 행동(예: 유해한 쿼리에 대한 정중한 거절)을 선호하도록 모델의 정책을 근본적으로 변경합니다.

RLHF와 표준 강화 학습 비교

두 접근 방식 모두 보상을 극대화하는 데 의존하지만, 보상의 출처가 크게 다릅니다.

  • 표준 강화 학습(RL): 기존 RL에서 보상 함수는 종종 하드코딩되거나 환경에 의해 수학적으로 정의되는 경우가 많습니다. 예를 들어, 체스 게임에서 환경은 명확한 신호를 제공합니다: 승리 시 +1, 패배 시 -1. 에이전트는 이 정의된 환경 내에서 시행착오를 통해 학습합니다. 마르코프 결정 과정(MDP).
  • RLHF: 요약문을 작성하거나 정중하게 자동차를 운전하는 것과 같은 많은 실제 작업에서 '성공'에 대한 수학적 "성공"에 대한 공식을 명시적으로 정의하는 것은 불가능합니다. RLHF는 하드코딩된 보상을 보상을 사람의 피드백에서 파생된 학습된 보상 모델로 대체함으로써 이 문제를 해결합니다. 이를 통해 '도움'이나 '안전'과 같은 추상적인 개념의 최적화 직접 프로그래밍하기 어려운 '도움'이나 '안전'과 같은 추상적인 개념을 최적화할 수 있습니다.

실제 애플리케이션

RLHF는 특히 높은 안전 기준과 미묘한 이해가 필요한 영역에서 AI 시스템이 세상과 상호작용하는 방식을 변화시켰습니다. 미묘한 이해가 필요한 영역에서 특히 그렇습니다.

  • 대화형 AI와 챗봇: RLHF의 가장 두드러진 사용 사례는 챗봇을 다음과 같이 도움이 되고 무해하도록 조정하는 것입니다. 독성이 있거나 편향적이거나 사실과 다른 출력에 불이익을 줌으로써 RLHF는 다음과 같은 문제를 완화합니다. 환각을 완화하고 알고리즘 편향성을 줄입니다. 이를 통해 어시스턴트는 다음을 수행할 수 있습니다. 위험한 지시를 거부하면서도 합법적인 쿼리에는 유용하게 사용할 수 있습니다.
  • 로보틱스 및 자율 에이전트: RLHF는 텍스트 외에도 로봇 공학에서 로봇 공학에 적용되어 에이전트에게 복잡한 물리적 작업을 가르칩니다. 예를 들어 예를 들어, 깨지기 쉬운 물체를 잡는 법을 배우는 로봇 팔은 인간 감독자로부터 어떤 그립을 잡는 것이 안전한지 시도가 안전했는지와 뚜렷한 실패에 대한 피드백을 받을 수 있습니다. 이 피드백은 단순한 딥러닝 기반 심층 강화 학습 기반 보다 효과적으로 제어 정책을 개선할 수 있습니다. 유사한 방법으로 자율 주행 차량이 운전을 학습하는 데 행동을 학습하는 데 도움이 됩니다.

인식과 RLHF 통합

시각적 애플리케이션에서 RLHF 에이전트는 주로 컴퓨터 비전(CV)에 의존합니다. 환경의 상태를 인식합니다. 다음과 같은 강력한 감지기는 YOLO11와 같은 강력한 감지기는 는 시스템의 '눈' 역할을 하여 정책 네트워크가 조치를 선택하는 데 사용하는 구조화된 관찰 정보(예: "왼쪽에서 보행자 감지됨")를 제공합니다. 왼쪽에서 보행자 감지" 등)을 제공하여 정책 네트워크가 조치를 선택하는 데 사용할 수 있습니다.

다음 예는 YOLO 모델이 에이전트에 대한 환경 상태를 제공하는 단순화된 개념을 보여줍니다. 에이전트. 전체 RLHF 루프에서 '보상'은 상담원의 신뢰도나 정확도에 대한 인간의 선호도에 대해 학습된 모델이 에 따라 '보상'이 결정됩니다.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

개발자는 강력한 인식 모델과 사람의 피드백을 통해 조정된 정책을 결합하여 다음과 같은 시스템을 구축할 수 있습니다. 지능적일 뿐만 아니라 다음을 엄격하게 검사하는 시스템을 구축할 수 있습니다. AI 안전. 다음과 같은 확장 가능한 감독에 대한 연구 헌법 AI, 와 같은 확장 가능한 감독에 대한 연구는 대규모 인간 주석에 대한 의존도를 줄이기 위해 이 분야를 계속 발전시키고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기