YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Process Reward Model (PRM)

Process Reward Model(PRM)이 어떻게 AI 추론을 개선하는지 알아보십시오. RLHF에서 단계별 피드백이 어떻게 LLM과 Ultralytics YOLO26을 위한 논리적이고 안전한 경로를 보장하는지 학습하십시오.

복잡한 인공지능 모델을 평가할 때는 최종 답변이 옳은지 확인하는 것 이상의 작업이 필요합니다. 고도로 전문화된 강화학습 기법은 AI가 작업을 수행하는 동안 거치는 각 중간 단계에 수학적 점수를 부여하여 밀도 높은 단계별 피드백을 제공합니다. 이러한 세분화된 접근 방식은 모델이 올바른 결과에 도달할 뿐만 아니라 그 과정에서 논리적이고 안전하며 검증 가능한 경로를 따르도록 보장합니다.

Link to this sectionProcess Reward Model 대 Outcome Reward Model#

보상 모델링의 더 넓은 맥락에서, 프로세스 기반 감독과 결과 기반 감독을 구분하는 것은 중요합니다. 전통적인 Outcome Reward Model(ORM)은 생성이 끝난 직후 단일하고 희소한 보상을 제공합니다. ORM은 훈련하기는 더 쉽지만 복잡한 작업에서 큰 결점을 가지고 있습니다. 즉, 잘못된 논리나 환각을 통해 정답에 도달한 모델에 의도치 않게 보상을 제공할 수 있습니다.

A Process Reward Model (PRM) solves this by evaluating the entire reasoning trajectory. As popularized by foundational OpenAI research in papers like Let's Verify Step by Step, a PRM applies stepwise supervision to each thought or action. This is a critical component of advanced Reinforcement Learning from Human Feedback (RLHF) pipelines, as it actively guides policy optimization using algorithms like Proximal Policy Optimization (PPO).

Link to this section실제 응용 분야#

PRM은 Large Language Models (LLM)과 자율 시스템이 중요한 환경에서 작동하는 방식을 변화시키고 있습니다.

  • 수학적 추론: 방정식을 줄 단위로 평가함으로써 PRM은 모델이 Best-of-N (BoN) sampling 또는 Monte Carlo Tree Search (MCTS)와 같은 알고리즘을 사용하여 여러 해결 경로를 탐색하고 논리적으로 가장 타당한 시퀀스를 선택할 수 있도록 합니다.
  • 코드 생성: 소프트웨어를 생성할 때 최종 스크립트가 실행되는지 확인하는 것만으로는 충분하지 않습니다. PRM은 프로세스 감독을 제공하며, 개별 함수와 논리 블록의 점수를 매겨 코드가 효율적이고 안전하며 유지 관리 가능한지 보장합니다.
  • Operations Research and Visual Agents: Recent advances in 2025 and 2026 have expanded PRMs beyond text. For example, operations research now utilizes PRMs to validate complex scheduling algorithms. Similarly, visual AI agents equipped with robust computer vision engines like Ultralytics YOLO26 receive step-by-step rewards for navigating physical environments, rather than just a single reward for reaching a destination.

Link to this section단계별 피드백 구현#

PRM을 훈련하려면 각 하위 단계를 인간이나 더 강력한 AI 모델이 평가하는 광범위한 데이터셋을 관리해야 합니다. 이러한 집중적인 데이터 주석 워크플로우 관리는 Ultralytics Platform과 같은 클라우드 기반 도구를 사용하면 더 간단해지며, 이는 프로젝트 구성 및 배포를 간소화합니다.

추론 또는 모델 최적화 중에 PRM은 단계 체인을 기반으로 누적 손실 또는 보상을 계산합니다. torch를 사용하는 다음의 개념적인 Python 코드 조각은 중간 단계가 실패할 경우 단계별 보상이 어떻게 페널티를 받는지 보여주며, 이는 시퀀스 채점을 위한 PyTorch 문서에서 흔히 볼 수 있는 접근 방식입니다.

import torch

# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)

# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()

print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates

모든 중간 단계가 예상되는 동작과 일치하도록 함으로써 개발자는 매우 신뢰할 수 있는 시스템을 배포할 수 있습니다. 프로세스 수준의 감독과 지속적인 하이퍼파라미터 튜닝을 결합하면 차세대 모델이 문제를 안전하고 효과적으로 진정으로 추론할 수 있게 됩니다.

Explore solutions

Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델로 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적, 정밀 농업을 강화하여 더 높고 스마트한 생산성을 달성하십시오.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 활용하여 자동차 분야에 컴퓨터 비전을 적용하십시오. Vision AI는 스마트 도로를 위해 도로 안전, 운전자 보조 및 차량 자동화 기능을 향상합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 Vision AI는 더 빠른 의료 영상 분석, 더 스마트한 진단, 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

소매업을 위한 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 보다 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

로봇 공학의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구현하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 구동합니다.

더 알아보기
Real-time AI that works with your team

제조업에서의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.