Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Reward Modeling

Исследуй reward modeling в машинном обучении. Узнай, как он использует обратную связь от людей для настройки AI-агентов и моделей Ultralytics YOLO26 для более безопасной и точной работы.

Reward modeling — это метод машинного обучения, используемый для обучения систем искусственного интеллекта оценивать и приоритизировать собственное поведение на основе предпочтений людей. В традиционных средах reinforcement learning AI agent обучается за счет максимизации заранее определенной, математически строгой функции вознаграждения, например, счета в видеоигре. Однако для сложных реальных задач, где «хорошее» поведение субъективно или имеет нюансы — например, написание вежливого письма или безопасный проезд перекрестка, — написать безупречную функцию вознаграждения вручную практически невозможно. Reward modeling решает эту проблему, обучая дополнительную neural network (reward model) выступать в качестве прокси для человеческого суждения. Эта модель оценивает результаты работы основного ИИ и присваивает скалярные оценки, динамически направляя главную модель к безопасному, полезному и точному поведению.

Link to this sectionКак работает Reward Modeling#

Конвейер для создания reward model в значительной степени опирается на сбор высококачественной обратной связи от людей.

  • Data Labeling и предпочтения: Аннотаторам предоставляются подсказки вместе с несколькими ответами, сгенерированными AI-моделью. Оценщики ранжируют эти ответы от лучшего к худшему на основе таких критериев, как полезность, безвредность и точность. Управление этими масштабными рабочими процессами аннотирования можно легко осуществлять с помощью Ultralytics Platform.
  • Обучение прокси-сети: Специализированная нейронная сеть обучается на этом наборе данных сравнений людьми. В процессе оптимизации она учится предсказывать, какой результат предпочел бы человек, отображая embeddings действия или текстового ответа в одно скалярное значение вознаграждения. Ты можешь подробнее прочитать о создании архитектур нейронных сетей в PyTorch API documentation.
  • Оптимизация политики: Основная модель использует непрерывную обратную связь от reward model для уточнения своих действий, обычно применяя такие алгоритмы, как Proximal Policy Optimization (PPO). Этот шаг итеративно приводит политику модели в соответствие с усвоенным человеческим намерением.

Link to this sectionReward Modeling против RLHF#

Важно отличать reward modeling от Reinforcement Learning from Human Feedback (RLHF). Хотя эти два термина часто обсуждаются вместе, они не являются синонимами. RLHF — это комплексный сквозной конвейер, используемый для настройки моделей, включающий обучение с учителем, сбор данных и обновление политики. Reward modeling — это конкретный, важный компонент внутри конвейера RLHF. Он служит мостом, который преобразует дискретные человеческие рейтинги в непрерывный математический сигнал, с которым может работать алгоритм обучения с подкреплением.

Link to this sectionРеальные применения#

Reward modeling играет важную роль в разработке современных систем ИИ, которые взаимодействуют непосредственно с людьми и физическим миром.

  • Large Language Models (LLMs): Разговорные AI-ассистенты полагаются на reward models, чтобы гарантировать, что их ответы не только фактически верны, но и вежливы, актуальны и не содержат токсичных выражений. Организации, исследующие AI safety, постоянно совершенствуют reward modeling для создания систем, которые отражают helpful and harmless AI alignment.
  • Autonomous Vehicles и робототехника: В физической автоматизации reward models помогают роботам понимать сложный этикет вождения или стратегии манипулирования объектами. Система восприятия на базе Ultralytics YOLO26 может обнаруживать пешеходов и дорожные знаки, в то время как reward model оценивает запланированную траекторию автомобиля, гарантируя, что ИИ отдает приоритет комфорту и безопасности пассажиров, а не просто агрессивной навигации из точки в точку.

Link to this sectionРеализация базовой концепции Reward Model#

Следующий пример на Python использует torch для демонстрации фундаментальной структуры reward model. На практике эта сеть учится присваивать более высокую скалярную оценку результату, который соответствует предпочтениям людей.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Чтобы глубже погрузиться в то, как выравнивание влияет на модели с открытым исходным кодом, изучи фундаментальные исследования по согласованию языковых моделей с намерениями человека и узнай, как системы computer vision (CV) используют продвинутые циклы обратной связи для безопасного взаимодействия с динамическими средами.

Explore solutions

Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ машинного зрения в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной индустрии

Применяй компьютерное зрение в автомобильной сфере с помощью моделей Ultralytics YOLO. ИИ для обработки изображений повышает безопасность дорожного движения, эффективность систем помощи водителю и автоматизацию транспортных средств, делая дороги умнее.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения в медицине ускоряет анализ медицинских изображений, делает диагностику точнее, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли розничную торговлю с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает отслеживание запасов, мониторинг полок, управление очередями и более глубокое понимание потребностей клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Расширяй возможности интеллектуальных машин с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с моделями Ultralytics YOLO. ИИ машинного зрения обеспечивает контроль качества, обнаружение дефектов, соблюдение требований к СИЗ и автоматизацию сборочных линий.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. ИИ для компьютерного зрения позволяет проверять посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность склада в реальном времени.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения