Reward Modeling
머신러닝에서의 Reward Modeling을 살펴보십시오. 사람의 피드백을 사용하여 AI 에이전트와 Ultralytics YOLO26 모델을 정렬하여 더욱 안전하고 정확한 성능을 달성하는 방법을 알아보십시오.
Reward Modeling은 인공지능 시스템이 사람의 선호도를 기반으로 자신의 행동을 평가하고 우선순위를 지정하는 방법을 학습시키는 머신러닝 기술입니다. 전통적인 reinforcement learning 환경에서 AI agent는 비디오 게임 점수와 같이 미리 정의되고 수학적으로 엄격한 보상 함수를 최대화하는 방식으로 학습합니다. 그러나 "좋은" 행동이 주관적이거나 미묘한 복잡한 실제 작업(예: 정중한 이메일 작성이나 교차로를 안전하게 통과하는 일)의 경우, 완벽한 보상 함수를 수동으로 작성하는 것은 거의 불가능합니다. Reward Modeling은 사람의 판단을 대리하는 보조 neural network(보상 모델)를 학습시켜 이를 해결합니다. 이 모델은 기본 AI의 출력을 평가하고 스칼라 점수를 할당하여, 메인 모델이 안전하고 유용하며 정확한 행동을 취하도록 동적으로 유도합니다.
Link to this sectionReward Modeling 작동 원리#
보상 모델을 구축하기 위한 파이프라인은 고품질의 사람 피드백을 수집하는 데 크게 의존합니다.
- Data Labeling 및 선호도: 사람 평가자에게 프롬프트와 함께 AI 모델이 생성한 여러 응답을 제공합니다. 평가자는 유용성, 무해성, 정확성과 같은 기준에 따라 이러한 응답을 최우수부터 최악까지 순위를 매깁니다. 이러한 대규모 주석 워크플로우 관리는 Ultralytics Platform을 사용하여 원활하게 처리할 수 있습니다.
- 프록시 네트워크 학습: 특수 신경망이 이러한 사람들의 비교 데이터셋으로 학습됩니다. 최적화 과정을 통해 이 네트워크는 어떤 출력을 사람이 선호할지 예측하는 법을 배우며, 행동이나 텍스트 응답의 embeddings를 단일 스칼라 보상 값으로 매핑합니다. 신경망 아키텍처 구축에 대한 자세한 내용은 PyTorch API documentation에서 확인할 수 있습니다.
- 정책 최적화: 기본 모델은 보상 모델로부터 지속적인 피드백을 받아 자신의 행동을 개선하며, 일반적으로 Proximal Policy Optimization (PPO)와 같은 알고리즘을 사용합니다. 이 단계는 모델의 정책을 학습된 사람의 의도와 반복적으로 정렬합니다.
Link to this sectionReward Modeling 대 RLHF#
Reward Modeling을 Reinforcement Learning from Human Feedback (RLHF)와 구분하는 것은 중요합니다. 두 용어는 자주 함께 논의되지만 동의어는 아닙니다. RLHF는 지도 미세 조정, 데이터 수집, 정책 업데이트를 아우르는 모델 정렬을 위한 포괄적인 엔드투엔드 파이프라인입니다. Reward Modeling은 RLHF 파이프라인 내의 구체적이고 중요한 구성 요소입니다. 이는 개별적인 사람의 순위를 강화 학습 알고리즘이 최적화할 수 있는 연속적인 수학적 신호로 변환하는 가교 역할을 합니다.
Link to this section실제 응용 분야#
Reward Modeling은 사람 및 물리적 세계와 직접 상호작용하는 현대적인 AI 시스템 개발에 핵심적인 역할을 합니다.
- Large Language Models (LLMs): 대화형 AI 비서는 답변이 사실적으로 정확할 뿐만 아니라 정중하고 적절하며 유해한 언어가 포함되지 않도록 보상 모델에 의존합니다. AI safety를 연구하는 조직은 helpful and harmless AI alignment를 반영하는 시스템을 구축하기 위해 Reward Modeling을 지속적으로 발전시키고 있습니다.
- Autonomous Vehicles 및 로봇 공학: 물리적 자동화 분야에서 보상 모델은 로봇이 복잡한 주행 예절이나 물체 조작 전략을 이해하도록 돕습니다. Ultralytics YOLO26으로 구동되는 인식 시스템은 보행자와 도로 표지판을 감지할 수 있으며, 보상 모델은 차량의 계획된 궤적을 평가하여 AI가 단순히 공격적인 지점 간 이동보다는 승객의 편안함과 안전을 우선시하도록 합니다.
Link to this section기본적인 Reward Model 개념 구현하기#
다음 Python 예제는 torch를 사용하여 보상 모델의 기초 구조를 보여줍니다. 실제로는 이 네트워크가 사람의 선호도와 일치하는 출력에 더 높은 스칼라 점수를 할당하는 법을 학습합니다.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")정렬이 오픈 소스 파운데이션 모델에 미치는 영향에 대해 더 깊이 알고 싶다면, 언어 모델을 사람의 의도와 정렬하는 것에 대한 기초 연구를 살펴보고 computer vision (CV) 시스템이 동적 환경과 안전하게 상호작용하기 위해 어떻게 고급 피드백 루프를 활용하는지 알아보십시오.






