용어집

인간 피드백을 통한 강화 학습(RLHF)

인간 피드백을 통한 강화 학습(RLHF)이 어떻게 모델을 인간의 가치에 맞춰 AI 성능을 개선하여 더 안전하고 스마트한 AI를 만드는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

인간 피드백을 통한 강화 학습(RLHF)은 AI 모델, 특히 대규모 언어 모델(LLM) 및 기타 생성 시스템을 인간의 의도와 선호도에 더 가깝게 맞추도록 설계된 고급 머신 러닝(ML) 기법입니다. 이는 인간의 피드백을 학습 루프에 직접 통합함으로써 표준 강화 학습(RL) 패러다임을 개선하여 기존의 보상 함수를 통해 이러한 특성을 지정하기 어려운 경우에도 인공지능(AI) 이 도움이 되고 무해하며 정직한 행동을 학습하도록 유도합니다. 이러한 접근 방식은 단순한 정확도 지표를 넘어 인간의 가치에 부합하는 미묘한 성능으로 나아가 더 안전하고 유용한 AI 시스템을 개발하는 데 매우 중요합니다.

RLHF 작동 방식

RLHF는 일반적으로 인간의 판단을 통합하여 보상 모델을 학습시킨 다음, 기본 AI 모델의 미세 조정을 안내하는 다단계 프로세스를 포함합니다:

  1. 모델 사전 학습: 초기 모델(예: LLM)은 대규모 데이터 세트에 대해 표준 방법(주로 지도 학습)을 사용하여 학습됩니다. 이 모델은 관련 콘텐츠를 생성할 수 있지만 구체적인 정렬이 부족할 수 있습니다.
  2. 사람의 피드백 수집: 사전 학습된 모델은 다양한 프롬프트에 대해 여러 개의 출력을 생성합니다. 평가자는 품질, 유용성, 무해성 또는 기타 원하는 기준에 따라 이러한 결과물의 순위를 매깁니다. 이러한 비교 피드백은 절대 점수보다 사람이 더 신뢰할 수 있고 쉽게 제공할 수 있는 경우가 많습니다. 이 데이터는 선호도 데이터 세트를 형성합니다.
  3. 보상 모델 훈련하기: 보상 모델이라고 하는 별도의 모델이 인간의 선호도 데이터에 대해 학습됩니다. 이 모델의 목표는 사람이 어떤 결과를 선호할지 예측하는 것으로, 기본적으로 사람의 판단을 모방하고 스칼라 보상 신호를 할당하는 방법을 학습하는 것입니다.
  4. 강화 학습을 통한 미세 조정: 그런 다음 RL(특히 근사 정책 최적화(PPO)와 같은 알고리즘)을 사용하여 원본 AI 모델을 미세 조정합니다. 이 단계에서 보상 모델은 보상 신호를 제공합니다. AI 모델은 다양한 결과물을 탐색하고 보상 모델이 선호하는 결과물이 강화되어 모델의 행동을 사람이 선호하는 방향으로 유도합니다. RL의 기본 개념은 Sutton & Barto의 소개와 같은 리소스에 자세히 설명되어 있습니다.

이러한 반복 주기를 통해 AI 모델은 프로그래밍 방식으로 정의하기 어려운 복잡하고 주관적인 목표를 학습하여 AI 윤리와 같은 측면을 개선하고 알고리즘 편향성을 줄일 수 있습니다.

RLHF와 관련 개념

  • 표준 강화 학습(RL): 기존의 RL은 환경 상태와 행동에 따라 명시적으로 프로그래밍된 보상 함수에 의존합니다. RLHF는 이를 인간의 선호도에 기반한 학습된 보상 모델로 대체하거나 보완하여 보다 미묘하거나 주관적인 목표를 포착할 수 있습니다. 심층 강화 학습을 통해 고급 RL 기법을 살펴보세요.
  • 헌법 AI(CAI): 개발 주체 Anthropic에서 개발한 CAI는 대안적인 정렬 기법입니다. RLHF는 사람의 피드백을 사용하여 보상 모델을 유용성과 무해성 모두에 대해 훈련하는 반면, CAI는 사전 정의된 '헌법'(규칙 또는 원칙의 집합)에 따라 AI 피드백을 사용하여 무해성을 위해 모델을 감독하며, 종종 유용성에 대해서는 여전히 사람의 피드백을 사용합니다. Anthropic 연구에서 CAI에 대해 자세히 알아보세요.

RLHF의 주요 애플리케이션

인공지능의 행동이 인간의 가치와 기대에 밀접하게 부합해야 하는 애플리케이션에서 RLHF의 중요성은 점점 더 커지고 있습니다:

  • 챗봇 및 가상 비서 개선하기: 대화형 AI를 더욱 매력적이고 유용하게 만들고, 유해하거나 편향적이거나 무의미한 응답을 생성하는 경향을 줄입니다. 여기에는 GPT-4와 같은 모델을 미세 조정하는 작업이 포함됩니다.
  • 콘텐츠 생성: 텍스트 요약 또는 텍스트 생성과 같은 작업의 모델을 개선하여 원하는 스타일이나 품질 표준에 더 잘 맞는 결과물을 생성합니다.
  • 추천 시스템 개인화: 단순한 클릭률을 넘어 사용자가 진정으로 흥미롭거나 유용하다고 생각하는 콘텐츠를 제안하도록 추천 엔진을 조정합니다.
  • 더 안전한 자율주행차 개발: 안전 규칙과 함께 운전 스타일(예: 부드러움, 독단성)에 대한 인간의 선호도를 통합합니다.

실제 사례

챗봇 정렬

OpenAIAnthropic 과 같은 회사들은 대규모 언어 모델을 훈련하는 데 RLHF를 광범위하게 사용합니다(예 ChatGPT, Claude). 사람이 유용성과 무해성에 따라 AI가 생성한 다양한 응답의 순위를 매기도록 함으로써 LLM이 더 안전하고 윤리적이며 유용한 텍스트를 생성하도록 안내하는 보상 모델을 학습시킵니다. 이를 통해 유해하거나 편향된 결과물과 관련된 위험을 완화하고 책임감 있는 AI 개발 원칙을 준수할 수 있습니다.

자율 주행 기본 설정

자율 주행 차량용 AI를 개발할 때 RLHF는 시뮬레이션된 운전 행동(예: 차선 변경 시 편안함, 가속의 부드러움, 모호한 상황에서의 의사 결정)에 대한 운전자 또는 승객의 피드백을 통합할 수 있습니다. 이를 통해 AI는 거리나 속도 제한과 같은 객관적인 지표에 따라 안전할 뿐만 아니라 인간에게 편안하고 직관적으로 느껴지는 운전 스타일을 학습하여 사용자의 신뢰와 수용성을 높일 수 있습니다. 이는 다음과 같은 모델이 수행하는 물체 감지와 같은 기존 컴퓨터 비전 작업을 보완합니다. Ultralytics YOLO.

RLHF의 이점

  • 향상된 정렬: 인간의 선호도를 직접 반영하여 사용자의 의도와 가치에 더 잘 부합하는 AI 시스템을 구축할 수 있습니다.
  • 주관성 처리: 품질이 주관적이고 단순한 지표로 정의하기 어려운 작업(예: 창의성, 정중함, 안전)에 효과적입니다.
  • 안전성 강화: 바람직하지 않은 결과에 대한 인간의 판단을 학습하여 AI가 유해하거나 비윤리적이거나 편향된 콘텐츠를 생성할 가능성을 줄입니다.
  • 적응성: 대상 피드백을 기반으로 특정 도메인 또는 사용자 그룹에 맞게 모델을 미세 조정할 수 있습니다.

과제 및 향후 방향

이러한 강점에도 불구하고 RLHF는 도전에 직면해 있습니다:

  • 확장성 및 비용: 고품질의 사람 피드백을 수집하는 데는 많은 비용과 시간이 소요될 수 있습니다.
  • 피드백 품질 및 편향성: 사람의 선호도는 일관성이 없거나 편향되어 있거나 전문성이 부족할 수 있으며, 잠재적으로 보상 모델에서 데이터 세트 편향으로 이어질 수 있습니다. 다양하고 대표성 있는 피드백을 확보하는 것이 중요합니다.
  • 보상 해킹: AI는 의도한 인간의 선호도를 실제로 충족시키지 않고도 보상 모델에서 예측한 보상을 극대화하는 방법을 찾을 수 있습니다(보상 해킹 또는 사양 게임이라고 함).
  • 복잡성: 전체 RLHF 파이프라인을 구현하려면 지도 학습, 강화 학습, 대규모 모델 훈련 관리 등 여러 ML 영역에 대한 전문 지식이 필요합니다.

향후 연구에서는 보다 효율적인 피드백 방법(예: 라벨링에 AI 지원 사용), 편향성 완화, 보상 모델의 견고성 개선, 더 광범위한 AI 작업에 RLHF 적용에 초점을 맞추고 있습니다. Hugging Face TRL 라이브러리와 같은 도구는 RLHF 구현을 용이하게 합니다. Ultralytics HUB와 같은 플랫폼은 데이터 세트와 훈련 모델을 관리하기 위한 인프라를 제공하며, 향후 컴퓨터 비전과 같은 분야의 전문화된 정렬 작업을 위해 잠재적으로 인간의 피드백 메커니즘을 통합할 수 있습니다. 이러한 플랫폼을 시작하는 방법에 대한 자세한 내용은 Ultralytics HUB 빠른 시작 가이드를 참조하세요. 효과적인 머신 러닝 운영(MLOps)AI의 투명성 확보를 위해 RLHF에 대한 이해는 점점 더 중요해지고 있습니다.

모두 보기