YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Reinforcement Learning from Human Feedback (RLHF)

인간 피드백 기반 강화 학습(RLHF)이 어떻게 AI를 인간의 가치에 부합하게 만드는지 알아보십시오. 핵심 구성 요소와 Ultralytics YOLO26과의 통합을 확인해 보십시오.

인간 피드백 기반 강화학습(RLHF)은 학습 루프에 인간의 직접적인 입력을 통합하여 인공지능 모델을 개선하는 고급 머신러닝 기법입니다. 정적 레이블링 데이터셋에만 의존하는 표준 지도 학습과 달리, RLHF는 인간 평가자가 모델의 결과물을 순위를 매기거나 평가하는 동적 피드백 메커니즘을 도입합니다. 이 과정을 통해 AI는 단순한 수학적 손실 함수로 정의하기 어려운 '유용성', '안전성', '창의성'과 같은 복잡하고 주관적이며 미묘한 목표를 포착할 수 있습니다. RLHF는 현대 대규모 언어 모델(LLM) 및 생성형 AI 개발의 초석이 되었으며, 강력한 파운데이션 모델이 인간의 가치와 사용자 의도에 효과적으로 부합하도록 보장합니다.

Link to this sectionRLHF의 핵심 구성 요소#

RLHF 프로세스는 일반적으로 원시적인 예측 능력과 인간의 행동 정렬 사이의 간극을 메우도록 설계된 3단계 파이프라인을 따릅니다.

  1. 지도 미세 조정(SFT): 워크플로우는 일반적으로 사전 학습된 파운데이션 모델에서 시작됩니다. 개발자는 전문가가 작성한 질문-답변 쌍과 같은 더 작고 품질이 높은 시연 데이터셋을 사용하여 초기 미세 조정을 수행합니다. 이 단계는 기준 정책을 수립하고 모델에게 작업에 필요한 일반적인 형식과 톤을 학습시킵니다.

  2. 보상 모델 학습: 이 단계는 RLHF의 가장 큰 특징입니다. 인간 평가자는 동일한 입력에 대해 모델이 생성한 여러 결과물을 검토하고 최고에서 최악 순으로 순위를 매깁니다. 이러한 데이터 레이블링 작업은 선호도 데이터셋을 생성합니다. 이후 별도의 신경망인 보상 모델을 이 비교 데이터로 학습시켜 인간의 판단을 반영하는 스칼라 점수를 예측하도록 합니다. Ultralytics Platform에서 제공되는 도구는 이러한 주석 워크플로우 관리를 간소화할 수 있습니다.

  3. 강화학습 최적화: 마지막으로, 원래 모델은 강화학습 환경 내에서 AI 에이전트 역할을 합니다. 보상 모델을 가이드로 사용하여 PPO(Proximal Policy Optimization)와 같은 최적화 알고리즘이 예상 보상을 극대화하도록 모델의 매개변수를 조정합니다. 이 단계는 모델의 정책을 학습된 인간의 선호도와 정렬시켜, 유익하고 안전한 행동은 장려하고 유해하거나 무의미한 결과물은 억제하도록 합니다.

Link to this section실제 애플리케이션 사례#

RLHF는 높은 안전 기준과 인간 상호작용에 대한 미묘한 이해가 필요한 AI 시스템을 배포하는 데 필수적인 것으로 입증되었습니다.

  • 대화형 AI 및 챗봇: RLHF의 가장 두드러진 적용 사례는 챗봇이 유익하고 무해하며 정직하도록 정렬하는 것입니다. 편향되거나 사실과 다르거나 위험한 결과물에 페널티를 부여함으로써, RLHF는 LLM의 환각을 완화하고 알고리즘 편향의 위험을 줄이는 데 도움을 줍니다. 이를 통해 가상 비서는 유해한 지시는 거부하면서도 합법적인 질문에는 유용하게 대응할 수 있습니다.
  • 로봇 공학 및 물리 제어: RLHF는 텍스트를 넘어 복잡한 물리적 작업에 대한 완벽한 보상 함수를 정의하기 어려운 로봇 공학 분야의 AI로 확장됩니다. 예를 들어, 혼잡한 창고를 탐색하는 로봇은 어떤 궤적이 안전했고 어떤 궤적이 방해를 일으켰는지에 대해 인간 감독자로부터 피드백을 받을 수 있습니다. 이러한 피드백은 단순한 목표 달성 기반의 심층 강화학습보다 로봇의 제어 정책을 훨씬 더 효과적으로 개선합니다.

Link to this sectionRLHF와 표준 강화학습의 비교#

RLHF의 특정 유용성을 이해하기 위해 이를 기존 강화학습(RL)과 구분하는 것이 도움이 됩니다.

  • 표준 RL: 전통적인 환경에서 보상 함수는 종종 환경에 의해 하드코딩됩니다. 예를 들어 비디오 게임의 경우, 환경은 명확한 신호(승리 시 +1, 패배 시 -1)를 제공합니다. 에이전트는 이 정의된 마르코프 결정 과정(MDP) 내에서 행동을 최적화합니다.
  • RLHF: 창의적인 이야기를 쓰거나 예의 바르게 운전하는 것과 같은 많은 실제 시나리오에서 '성공'은 주관적입니다. RLHF는 하드코딩된 보상을 인간의 선호도에서 파생된 학습된 보상 모델로 대체하여 이 문제를 해결합니다. 이를 통해 명시적으로 프로그래밍할 수 없는 '품질'이나 '적절성'과 같은 추상적 개념을 최적화할 수 있습니다.

Link to this section피드백 루프와 인식 통합#

시각적 애플리케이션에서 RLHF 정렬 에이전트는 종종 행동하기 전에 환경 상태를 인식하기 위해 컴퓨터 비전(CV)에 의존합니다. YOLO26과 같은 강력한 탐지기는 인식 계층으로 기능하며, 정책 네트워크가 행동을 선택하는 데 사용하는 구조화된 관측값(예: "3미터 거리에서 장애물 감지")을 제공합니다.

다음 Python 예제는 YOLO 모델이 환경 상태를 제공하는 간소화된 개념을 보여줍니다. 전체 RLHF 루프에서 '보상' 신호는 이 탐지 데이터를 기반으로 한 에이전트의 결정에 대한 인간 피드백을 학습한 모델에서 나옵니다.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

강력한 인식 모델과 인간 피드백을 통해 개선된 정책을 결합함으로써, 개발자는 지능적일 뿐만 아니라 AI 안전 원칙에 엄격하게 부합하는 시스템을 구축할 수 있습니다. Constitutional AI와 같은 확장 가능한 감독에 대한 지속적인 연구는 대규모 인간 주석의 병목 현상을 줄이면서도 높은 모델 성능을 유지하는 것을 목표로 이 분야를 발전시키고 있습니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.