Group Relative Policy Optimization (GRPO)

Открой для себя метод оптимизации групповой относительной политики (GRPO). Узнай, как этот эффективный по памяти RL-алгоритм без критика улучшает рассуждения LLM и сокращает затраты на обучение.

Group Relative Policy Optimization (GRPO) — это эффективный по использованию памяти алгоритм обучения с подкреплением, разработанный для улучшения навыков рассуждения больших языковых моделей (LLM) и более широких систем искусственного интеллекта (ИИ). Впервые представленный в статье DeepSeekMath 2024 года, GRPO превосходит традиционные методы оптимизации, устраняя необходимость в отдельной сети оценки (критической модели). Вместо этого он нормализует вознаграждения группы сгенерированных ответов, полученных из одного и того же промпта. Оценивая ответы относительно других ответов в группе, GRPO значительно снижает вычислительные затраты, одновременно повышая производительность в сложных задачах на рассуждение в современных архитектурах глубокого обучения (DL).

Link to this sectionЧем GRPO отличается от PPO#

Хотя GRPO имеет сходства с Proximal Policy Optimization (PPO) — стандартным алгоритмом оптимизации, часто используемым в обучении с подкреплением на основе отзывов людей (RLHF), эти два алгоритма существенно различаются по своей архитектуре. PPO требует вторичной «критической» модели, которая работает параллельно с основной политикой сети для оценки значения заданного состояния. Это почти удваивает объем памяти, необходимой во время этапа обучения.

В отличие от него, GRPO — это алгоритм без критической модели. Выбирая несколько выводов для одного промпта и оценивая их с помощью системы вознаграждений на основе правил или верификатора, GRPO вычисляет преимущество путем нормализации баллов внутри этой конкретной группы. Это относительное сравнение служит базовой линией, экономя огромное количество памяти, которое заняла бы критическая сеть, и ускоряя общее обучение моделей.

Link to this sectionРеальные применения GRPO#

GRPO стала движущей силой нескольких недавних прорывов в генеративном ИИ и обработке естественного языка. Два примечательных примера применения включают:

Модели математических рассуждений: В широко цитируемом релизе DeepSeek-R1 и DeepSeekMath, GRPO использовалась для стимулирования моделей к развитию длинных цепочек рассуждений и самопроверке, что позволило достичь производительности, сопоставимой с проприетарными моделями, такими как o1 от OpenAI. Вознаграждая за правильные финальные ответы и форматирование, алгоритм позволил модели органично открывать для себя передовые стратегии решения задач без интенсивной тонкой настройки на данных, размеченных человеком.
Генерация кода и агентная логика: Для моделей, пишущих код или поддерживающих автономные агентные рабочие процессы, оценка абсолютной правильности представляет собой сложную задачу. GRPO позволяет моделям учиться, выполняя варианты кода и оценивая их относительно друг друга на основе успеха компиляции или пройденных тестов, что ускоряет развертывание высоконадежных ИИ-ассистентов для программирования.

Link to this sectionВнедрение концепций GRPO в PyTorch#

По своей сути, GRPO вычисляет относительное преимущество ответов путем нормализации их вознаграждений. Вот базовая реализация на PyTorch, демонстрирующая эту нормализацию с использованием стандартных тензорных операций:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Link to this sectionРазвитие ИИ с помощью интеллектуальной оптимизации#

Точно так же, как GRPO меняет представление об эффективности генерации текста, передовые методы машинного обучения (ML) постоянно трансформируют зрительное восприятие. Оптимизация архитектур и функций потерь позволяет разработчикам создавать более легкие и быстрые модели во всех областях.

Для современных задач компьютерного зрения исследование сквозных оптимизаций столь же критично. Например, Ultralytics YOLO26 представляет архитектуру, изначально не требующую NMS, и гибридные оптимизаторы, вдохновленные исследованиями LLM, что значительно улучшает развертывание на периферийных устройствах. Разработчики, стремящиеся использовать эффективные рабочие процессы компьютерного зрения, могут легко создавать, обучать и развертывать модели с помощью платформы Ultralytics. Этот облачный инструмент упрощает управление сложными наборами данных и настройку гиперпараметров для надежных приложений зрения реального времени.

Explore solutions

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Group Relative Policy Optimization (GRPO)

Link to this sectionЧем GRPO отличается от PPO#

Link to this sectionРеальные применения GRPO#

Link to this sectionВнедрение концепций GRPO в PyTorch#

Link to this sectionРазвитие ИИ с помощью интеллектуальной оптимизации#

Explore solutions

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

ИИ в робототехнике

ИИ в логистике

ИИ в розничной торговле

ИИ в здравоохранении

ИИ в производстве

ИИ в автомобильной отрасли

ИИ в сельском хозяйстве

Давай строить будущее ИИ вместе!