Узнайте, как модели вознаграждения за процесс (PRM) улучшают способность ИИ к логическому мышлению. Узнайте, как обратная связь на уровне шагов в RLHF обеспечивает логичные и безопасные траектории для моделей LLM и Ultralytics .
Оценка сложных моделей искусственного интеллекта требует нечто большего, чем просто проверка правильности конечного результата. Высокоспециализированный метод обучения с подкреплением присваивает математические оценки каждому промежуточному шагу, который ИИ выполняет в ходе решения задачи, обеспечивая подробную обратную связь на уровне отдельных шагов. Такой детализированный подход гарантирует, что модель не только достигает нужного результата, но и следует к нему по логическим, безопасным и поддающимся проверке путям.
В более широком контексте моделирования вознаграждений важно различать надзор, ориентированный на процесс, и надзор, ориентированный на результат. Традиционные модели вознаграждения по результату (ORM) предоставляют однократное, редкое вознаграждение в самом конце генерации. Хотя ORM проще обучать, у них есть серьезный недостаток при решении сложных задач: они могут непреднамеренно вознаграждать модели, которые приходят к правильному ответу с помощью ошибочной логики или галлюцинаций.
Модель вознаграждения за процесс (PRM) решает эту проблему путем оценки всей траектории рассуждений. Как показано в основополагающих исследованиях OpenAI, представленных в таких работах, как «Let's Verify Step by Step», PRM применяет пошаговый контроль к каждой мысли или действию. Это является критически важным компонентом передовых потоков обучения с подкреплением на основе обратной связи от человека (RLHF) , поскольку она активно направляет оптимизацию политики с помощью таких алгоритмов, как проксимальная оптимизация политики (PPO).
PRM меняют подход к тому, как крупные языковые модели (LLM) и автономные системы работают в условиях, где на карту поставлено многое:
Обучение модели PRM требует работы с обширными наборами данных, при этом каждый промежуточный этап оценивается людьми или более мощными моделями искусственного интеллекта. Управление этими ресурсоемкими рабочими процессами аннотирования данных упрощается благодаря облачным инструментам, таким как Ultralytics , которые оптимизируют организацию и развертывание проектов.
Во время вывода или
оптимизация модели, PRM
вычисляет совокупную потерю или вознаграждение на основе цепочки шагов. Ниже приведен концептуальный Python , использующий
torch показывает, как вознаграждения за прохождение отдельных этапов уменьшаются в случае неудачи на промежуточном этапе — это распространенный подход,
встречающийся в PyTorch для оценки последовательностей:
import torch
# Simulate reward scores from a PRM for 3 consecutive reasoning steps
# Scores represent the probability of correctness for each step (0.0 to 1.0)
step_rewards = torch.tensor([0.95, 0.80, 0.15], requires_grad=True)
# The PRM aggregates the scores, heavily penalizing the poor 3rd step
# Negative log-likelihood is commonly used to optimize the trajectory
prm_loss = -torch.log(step_rewards).mean()
print(f"Calculated PRM Loss: {prm_loss.item():.4f}")
# During RLHF, this loss would guide hyperparameter tuning and model updates
Обеспечивая соответствие каждого промежуточного этапа ожидаемому поведению, разработчики могут развертывать высоконадежные системы. Сочетание контроля на уровне процессов с непрерывной настройкой гиперпараметров позволяет моделям нового поколения действительно безопасно и эффективно решать задачи.
Начните свой путь в будущее машинного обучения