Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Group Relative Policy Optimization (GRPO)

Открой для себя Group Relative Policy Optimization (GRPO). Узнай, как этот эффективный по памяти алгоритм обучения с подкреплением без критика улучшает рассуждения LLM и снижает затраты на обучение.

Group Relative Policy Optimization (GRPO) — это эффективный по использованию памяти алгоритм обучения с подкреплением, разработанный для улучшения способностей к рассуждению у больших языковых моделей (LLM) и более широкого спектра систем искусственного интеллекта (ИИ). Впервые представленный в статье DeepSeekMath за 2024 год, GRPO совершенствует традиционные методы оптимизации, устраняя необходимость в отдельной модели оценки (критика). Вместо этого алгоритм нормализует награды для группы сгенерированных ответов, полученных по одному и тому же запросу. Оценивая ответы относительно других вариантов внутри группы, GRPO значительно снижает вычислительные затраты и повышает производительность при решении сложных задач на логику в современных архитектурах глубокого обучения (DL).

Чем GRPO отличается от PPO

Хотя GRPO имеет сходства с Proximal Policy Optimization (PPO) — стандартным алгоритмом оптимизации, часто используемым в обучении с подкреплением на основе отзывов людей (RLHF), эти два алгоритма существенно различаются по архитектуре. PPO требует наличия вторичной «критической» модели, которая работает параллельно с основной сетью стратегий для оценки значения заданного состояния. Это почти удваивает объем памяти, необходимый во время этапа обучения.

Напротив, GRPO — это алгоритм без использования критика. Выбирая несколько вариантов вывода для одного запроса и оценивая их с помощью системы наград на основе правил или верификатора, GRPO вычисляет преимущество путем нормализации оценок внутри этой конкретной группы. Такое относительное сравнение выступает в качестве базового уровня, что позволяет экономить огромные объемы памяти, которые заняла бы модель оценки, и ускоряет обучение моделей в целом.

Применение GRPO в реальных задачах

GRPO послужил основой для нескольких недавних прорывов в области генеративного ИИ и обработки естественного языка. Вот два заметных примера применения:

  1. Модели для математических рассуждений: В широко обсуждаемом релизе DeepSeek-R1 и DeepSeekMath, GRPO использовался для стимулирования моделей к развитию длинных цепочек рассуждений и самопроверки, что позволило достичь производительности проприетарных моделей, таких как o1 от OpenAI. Поощряя правильные итоговые ответы и верное форматирование, алгоритм позволил модели самостоятельно находить продвинутые стратегии решения задач без необходимости в обширной тонкой настройке на размеченных человеком данных.
  2. Генерация кода и агентная логика: Для моделей, которые пишут код или обеспечивают работу автономных агентных рабочих процессов, оценка абсолютной корректности — сложная задача. GRPO позволяет моделям учиться путем выполнения различных вариантов кода и их относительной оценки на основе успеха компиляции или прохождения тестовых примеров, ускоряя внедрение высоконадежных ИИ-ассистентов для программирования.

Реализация концепций GRPO на PyTorch

По своей сути GRPO вычисляет относительное преимущество ответов путем нормализации их наград. Вот базовая реализация на PyTorch, демонстрирующая эту нормализацию с помощью стандартных тензорных операций:



def compute_grpo_advantages(rewards):
    # 'rewards' is a tensor of shape (batch_size, group_size)
    group_mean = rewards.mean(dim=1, keepdim=True)
    group_std = rewards.std(dim=1, keepdim=True)

    # Normalize rewards within the group to calculate relative advantages
    advantages = (rewards - group_mean) / (group_std + 1e-8)
    return advantages

Развитие ИИ с помощью интеллектуальной оптимизации

Так же, как GRPO переосмысливает эффективность генерации текста, передовые методы машинного обучения (ML) постоянно меняют область зрительного восприятия. Оптимизация архитектур и функций потерь позволяет разработчикам создавать более легкие и быстрые модели во всех доменах.

Для современных задач компьютерного зрения не менее критически важно исследовать сквозные оптимизации. Например, Ultralytics YOLO26 представляет архитектуру, изначально не требующую NMS, и гибридные оптимизаторы, вдохновленные исследованиями в области LLM, что значительно улучшает развертывание на периферийных устройствах. Разработчики, стремящиеся использовать эффективные рабочие процессы компьютерного зрения, могут легко создавать, обучать и развертывать модели с помощью Ultralytics Platform. Этот облачный инструмент упрощает управление сложными наборами данных и настройку гиперпараметров для создания надежных приложений визуального восприятия в реальном времени.

Explore solutions

Real-time AI tailored to your operation

ИИ в автомобильной индустрии

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Автоматизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной индустрии с моделями Ultralytics YOLO. ИИ машинного зрения повышает безопасность дорожного движения, помогает водителю и автоматизирует транспортные средства, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай медицинские решения с моделями Ultralytics YOLO. ИИ-зрение в здравоохранении ускоряет обработку медицинских изображений, повышает качество диагностики и мониторинга пациентов.

Узнать больше
Real-time AI that works with your team

ИИ в ритейле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ-зрение позволяет отслеживать запасы, контролировать полки, управлять очередями и получать более точные данные о покупателях.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Создавай более умные машины с моделями Ultralytics YOLO. Vision ИИ в робототехнике управляет автономной навигацией, восприятием, отслеживанием объектов и контролем в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. Vision ИИ управляет контролем качества, обнаружением дефектов, соблюдением требований к СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с моделями Ultralytics YOLO. ИИ машинного зрения позволяет проверять посылки, сортировать их, отслеживать транспорт и мониторить безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в автомобильной индустрии

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Автоматизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной индустрии с моделями Ultralytics YOLO. ИИ машинного зрения повышает безопасность дорожного движения, помогает водителю и автоматизирует транспортные средства, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай медицинские решения с моделями Ultralytics YOLO. ИИ-зрение в здравоохранении ускоряет обработку медицинских изображений, повышает качество диагностики и мониторинга пациентов.

Узнать больше
Real-time AI that works with your team

ИИ в ритейле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ-зрение позволяет отслеживать запасы, контролировать полки, управлять очередями и получать более точные данные о покупателях.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Создавай более умные машины с моделями Ultralytics YOLO. Vision ИИ в робототехнике управляет автономной навигацией, восприятием, отслеживанием объектов и контролем в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. Vision ИИ управляет контролем качества, обнаружением дефектов, соблюдением требований к СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с моделями Ultralytics YOLO. ИИ машинного зрения позволяет проверять посылки, сортировать их, отслеживать транспорт и мониторить безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в автомобильной индустрии

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Автоматизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной индустрии с моделями Ultralytics YOLO. ИИ машинного зрения повышает безопасность дорожного движения, помогает водителю и автоматизирует транспортные средства, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай медицинские решения с моделями Ultralytics YOLO. ИИ-зрение в здравоохранении ускоряет обработку медицинских изображений, повышает качество диагностики и мониторинга пациентов.

Узнать больше
Real-time AI that works with your team

ИИ в ритейле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ-зрение позволяет отслеживать запасы, контролировать полки, управлять очередями и получать более точные данные о покупателях.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Создавай более умные машины с моделями Ultralytics YOLO. Vision ИИ в робототехнике управляет автономной навигацией, восприятием, отслеживанием объектов и контролем в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. Vision ИИ управляет контролем качества, обнаружением дефектов, соблюдением требований к СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с моделями Ultralytics YOLO. ИИ машинного зрения позволяет проверять посылки, сортировать их, отслеживать транспорт и мониторить безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения