Group Relative Policy Optimization (GRPO)
Открой для себя Group Relative Policy Optimization (GRPO). Узнай, как этот эффективный по памяти алгоритм обучения с подкреплением без критика улучшает рассуждения LLM и снижает затраты на обучение.
Group Relative Policy Optimization (GRPO) — это эффективный по использованию памяти алгоритм обучения с подкреплением, разработанный для улучшения способностей к рассуждению у больших языковых моделей (LLM) и более широкого спектра систем искусственного интеллекта (ИИ). Впервые представленный в статье DeepSeekMath за 2024 год, GRPO совершенствует традиционные методы оптимизации, устраняя необходимость в отдельной модели оценки (критика). Вместо этого алгоритм нормализует награды для группы сгенерированных ответов, полученных по одному и тому же запросу. Оценивая ответы относительно других вариантов внутри группы, GRPO значительно снижает вычислительные затраты и повышает производительность при решении сложных задач на логику в современных архитектурах глубокого обучения (DL).
Чем GRPO отличается от PPO
Хотя GRPO имеет сходства с Proximal Policy Optimization (PPO) — стандартным алгоритмом оптимизации, часто используемым в обучении с подкреплением на основе отзывов людей (RLHF), эти два алгоритма существенно различаются по архитектуре. PPO требует наличия вторичной «критической» модели, которая работает параллельно с основной сетью стратегий для оценки значения заданного состояния. Это почти удваивает объем памяти, необходимый во время этапа обучения.
Напротив, GRPO — это алгоритм без использования критика. Выбирая несколько вариантов вывода для одного запроса и оценивая их с помощью системы наград на основе правил или верификатора, GRPO вычисляет преимущество путем нормализации оценок внутри этой конкретной группы. Такое относительное сравнение выступает в качестве базового уровня, что позволяет экономить огромные объемы памяти, которые заняла бы модель оценки, и ускоряет обучение моделей в целом.
Применение GRPO в реальных задачах
GRPO послужил основой для нескольких недавних прорывов в области генеративного ИИ и обработки естественного языка. Вот два заметных примера применения:
- Модели для математических рассуждений: В широко обсуждаемом релизе DeepSeek-R1 и DeepSeekMath, GRPO использовался для стимулирования моделей к развитию длинных цепочек рассуждений и самопроверки, что позволило достичь производительности проприетарных моделей, таких как o1 от OpenAI. Поощряя правильные итоговые ответы и верное форматирование, алгоритм позволил модели самостоятельно находить продвинутые стратегии решения задач без необходимости в обширной тонкой настройке на размеченных человеком данных.
- Генерация кода и агентная логика: Для моделей, которые пишут код или обеспечивают работу автономных агентных рабочих процессов, оценка абсолютной корректности — сложная задача. GRPO позволяет моделям учиться путем выполнения различных вариантов кода и их относительной оценки на основе успеха компиляции или прохождения тестовых примеров, ускоряя внедрение высоконадежных ИИ-ассистентов для программирования.
Реализация концепций GRPO на PyTorch
По своей сути GRPO вычисляет относительное преимущество ответов путем нормализации их наград. Вот базовая реализация на PyTorch, демонстрирующая эту нормализацию с помощью стандартных тензорных операций:
def compute_grpo_advantages(rewards):
# 'rewards' is a tensor of shape (batch_size, group_size)
group_mean = rewards.mean(dim=1, keepdim=True)
group_std = rewards.std(dim=1, keepdim=True)
# Normalize rewards within the group to calculate relative advantages
advantages = (rewards - group_mean) / (group_std + 1e-8)
return advantagesРазвитие ИИ с помощью интеллектуальной оптимизации
Так же, как GRPO переосмысливает эффективность генерации текста, передовые методы машинного обучения (ML) постоянно меняют область зрительного восприятия. Оптимизация архитектур и функций потерь позволяет разработчикам создавать более легкие и быстрые модели во всех доменах.
Для современных задач компьютерного зрения не менее критически важно исследовать сквозные оптимизации. Например, Ultralytics YOLO26 представляет архитектуру, изначально не требующую NMS, и гибридные оптимизаторы, вдохновленные исследованиями в области LLM, что значительно улучшает развертывание на периферийных устройствах. Разработчики, стремящиеся использовать эффективные рабочие процессы компьютерного зрения, могут легко создавать, обучать и развертывать модели с помощью Ultralytics Platform. Этот облачный инструмент упрощает управление сложными наборами данных и настройку гиперпараметров для создания надежных приложений визуального восприятия в реальном времени.






