YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

인간 피드백을 통한 강화 학습(RLHF)

인간 피드백을 통한 강화 학습(RLHF)이 어떻게 AI 모델을 인간의 가치에 부합시켜 더 안전하고 스마트한 AI를 만드는지 알아보세요.

인간 피드백을 통한 강화 학습(RLHF)은 인공 지능(AI) 모델을 복잡하고 주관적인 인간 가치에 맞추도록 설계된 고급 머신러닝 기술입니다. RLHF는 미리 정의된 보상 함수에 의존하는 대신 인간의 선호도를 사용하여 AI의 학습 과정을 안내하는 "보상 모델"을 훈련합니다. 이 접근 방식은 안전하고 유용하며 일관성 있는 대화 생성과 같이 "좋은" 성능에 대한 정의가 미묘하거나 주관적이거나 간단한 메트릭으로 지정하기 어려운 작업에 특히 효과적입니다.

RLHF는 어떻게 작동하나요?

RLHF 과정은 일반적으로 세 가지 주요 단계를 포함합니다.

  1. 언어 모델 사전 훈련: 방대한 텍스트 데이터 코퍼스에서 사전 훈련된 기본 대규모 언어 모델(LLM)로 시작합니다. 기반 모델과 유사한 이 초기 모델은 언어에 대한 광범위한 이해를 가지고 있지만 특정 스타일이나 작업에 아직 특화되지 않았습니다. 이 단계는 선택적으로 고품질 데이터 세트에서 지도 미세 조정으로 이어질 수 있습니다.
  2. 보상 모델 학습: 이는 RLHF의 핵심입니다. 인간 레이블러는 프롬프트에 대한 응답으로 사전 학습된 모델에서 생성된 여러 출력을 제공받습니다. 이들은 유용성, 진실성 및 안전성과 같은 기준에 따라 이러한 출력을 가장 좋은 것부터 가장 나쁜 것 순으로 순위를 매깁니다. 이 선호도 데이터는 별도의 보상 모델을 학습하는 데 사용됩니다. 보상 모델은 인간이 선호하는 출력을 예측하는 방법을 학습하여 효과적으로 인간의 판단을 포착합니다.
  3. 강화 학습을 통한 미세 조정: 사전 훈련된 모델은 강화 학습(RL)을 사용하여 추가적으로 미세 조정됩니다. 이 단계에서 모델(에이전트 역할)은 출력을 생성하고, 보상 모델은 각 출력에 대한 '보상' 점수를 제공합니다. 근사 정책 최적화(Proximal Policy Optimization, PPO)와 같은 알고리즘으로 관리되는 이 프로세스는 AI 모델이 보상을 최대화하는 응답을 생성하도록 파라미터를 조정하여 학습된 인간 선호도에 따라 행동을 조정하도록 장려합니다. OpenAIDeepMind와 같은 기관의 선구적인 연구는 그 효과를 입증했습니다.

실제 애플리케이션

RLHF는 현대 AI 시스템 개발에 중요한 역할을 해왔습니다.

  • 고급 챗봇(Advanced Chatbots): OpenAI의 ChatGPT 및 Anthropic의 Claude와 같은 주요 AI 챗봇은 RLHF를 사용하여 응답이 정확할 뿐만 아니라 무해하고 윤리적이며 사용자 의도에 부합하도록 합니다. 이는 대규모 생성형 AI에서 흔히 발생하는 문제인 편향되거나 유해한 콘텐츠 생성과 같은 문제를 완화하는 데 도움이 됩니다.
  • 자율 주행 선호도: 자율 주행차를 위한 AI 개발에서 RLHF는 차선 변경 중의 편안함이나 모호한 상황에서의 의사 결정과 같은 시뮬레이션된 행동에 대한 운전자의 피드백을 통합할 수 있습니다. 이는 AI가 인간에게 직관적이고 신뢰할 수 있는 운전 스타일을 학습하는 데 도움이 되며, Ultralytics YOLO와 같은 모델이 수행하는 객체 감지와 같은 기존 컴퓨터 비전 작업을 보완합니다.

RLHF vs. 관련 개념

RLHF를 다른 AI 학습 기술과 구별하는 것이 중요합니다.

  • 강화 학습: 표준 RL은 개발자가 원하는 동작을 정의하기 위해 보상 함수를 수동으로 설계해야 합니다. 이는 명확한 점수가 있는 게임에서는 간단하지만 복잡한 실제 작업에서는 어렵습니다. RLHF는 인간 피드백에서 보상 함수를 학습하여 이를 해결하므로 성공에 대한 명확한 메트릭이 없는 문제에 적합합니다.
  • 지도 학습: 지도 학습은 단일 "정답"이 있는 데이터 세트에서 모델을 학습합니다. 이 접근 방식은 여러 가지 좋은 답변이 있는 창의적이거나 주관적인 작업에는 덜 효과적입니다. RLHF는 선호도 순위(예: "A가 B보다 낫다")를 사용하여 모호성을 탐색하고 미묘한 행동을 학습할 수 있습니다.

과제 및 향후 방향

강력함에도 불구하고 RLHF는 어려움에 직면해 있습니다. 고품질의 인간 피드백을 수집하는 것은 비용이 많이 들고 레이블러가 다양하지 않으면 데이터 세트 편향을 초래할 수 있습니다. 또한 AI는 보상 모델을 '게임'하는 방법을 발견할 수 있으며, 이는 보상 해킹으로 알려진 현상입니다.

미래 연구는 모델을 안내하기 위해 AI 생성 원칙을 사용하는 Constitutional AI와 같이 더 효율적인 피드백 방법과 대안을 모색하고 있습니다. RLHF를 구현하려면 여러 머신 러닝 영역에 대한 전문 지식이 필요하지만, Hugging Face의 TRL 라이브러리와 같은 도구를 통해 접근성이 향상되고 있습니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트 관리 및 모델 훈련을 위한 인프라를 제공하며, 이는 고급 정렬 작업 및 강력한 MLOps(Machine Learning Operations)의 기본입니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.