Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Моделирование вознаграждений

Изучите моделирование вознаграждений в машинном обучении. Узнайте, как оно использует обратную связь от людей для согласования действий агентов ИИ и моделей Ultralytics , чтобы обеспечить более безопасную и точную работу.

Моделирование вознаграждений — это метод машинного обучения, используемый для обучения систем искусственного интеллекта оценке и приоритезации собственного поведения на основе человеческих предпочтений. В традиционных средах обучения с подкреплением агент искусственного интеллекта учится, максимизируя заранее определенную, математически жесткую функцию вознаграждения, такую как оценка в видеоигре. Однако для сложных реальных задач, где «хорошее» поведение является субъективным или имеет нюансы, например, написание вежливого электронного письма или безопасное пересечение перекрестка, написание безупречной функции вознаграждения вручную практически невозможно. Моделирование вознаграждения решает эту проблему путем обучения вторичной нейронной сети (модели вознаграждения), которая действует как прокси для человеческого суждения. Эта модель оценивает результаты первичного ИИ и присваивает скалярные оценки, динамически направляя основную модель к безопасному, полезному и точному поведению.

Как работает моделирование вознаграждений

Процесс создания модели вознаграждений в значительной степени зависит от сбора высококачественных отзывов от людей.

  • Маркировка данных и предпочтения: Аннотаторы-люди получают подсказки наряду с несколькими ответами, сгенерированными моделью искусственного интеллекта. Оценщики ранжируют эти ответы от лучшего к худшему на основе таких критериев, как полезность, безвредность и точность. Управление этими крупномасштабными рабочими процессами аннотирования может быть легко осуществлено с помощью Ultralytics .
  • Обучение прокси-сети: на этом наборе данных человеческих сравнений обучается специализированная нейронная сеть. В процессе оптимизации она учится предсказывать, какой результат предпочтет человек, сопоставляя вложения действия или текстового ответа с единственным скалярным значением вознаграждения. Подробнее о построении архитектур нейронных сетей можно прочитать в документацииPyTorch .
  • Оптимизация политики: первичная модель использует непрерывную обратную связь от модели вознаграждения для уточнения своих действий, как правило, с использованием таких алгоритмов, как проксимальная оптимизация политики (PPO). На этом этапе происходит итеративное согласование политики модели с изученными намерениями человека.

Моделирование вознаграждений против RLHF

Важно отличать моделирование вознаграждений от обучения с подкреплением на основе обратной связи от человека (RLHF). Хотя эти два термина часто обсуждаются вместе, они не являются синонимами. RLHF — это комплексный концептуальный подход, используемый для согласования моделей, включающий в себя контролируемую точную настройку, сбор данных и обновление политик. Моделирование вознаграждений — это конкретный, важнейший компонент в конвейере RLHF. Он служит мостом, который преобразует дискретные человеческие рейтинги в непрерывный математический сигнал, по которому алгоритм обучения с подкреплением может оптимизироваться.

Применение в реальном мире

Моделирование вознаграждений играет важную роль в разработке современных систем ИИ, которые напрямую взаимодействуют с людьми и физическим миром.

  • Крупные языковые модели (LLM): Разговорные ИИ-помощники полагаются на модели вознаграждения, чтобы обеспечить не только фактическую правильность своих ответов, но и вежливость, уместность и отсутствие оскорбительных выражений. Организации, занимающиеся изучением безопасности ИИ, постоянно совершенствуют модели вознаграждения, чтобы создать системы, отражающие полезное и безвредное согласование ИИ.
  • Автономные транспортные средства и робототехника: В физической автоматизации модели вознаграждения помогают роботам понимать сложные правила дорожного движения или стратегии манипулирования объектами. Система восприятия на базе Ultralytics может detect и дорожные знаки, а модель вознаграждения оценивает запланированную траекторию движения транспортного средства, обеспечивая приоритет комфорта и безопасности пассажиров над чисто агрессивной навигацией от точки к точке.

Внедрение базовой концепции модели вознаграждений

В следующем Python используется torch демонстрировать основополагающую структуру модели вознаграждения. На практике эта сеть учится присваивать более высокий скалярный балл выходу, который соответствует человеческим предпочтениям.

import torch
import torch.nn as nn


# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Maps the AI's output embedding to a single reward score
        self.fc = nn.Linear(768, 1)

    def forward(self, embeddings):
        return self.fc(embeddings)


# Initialize the model
reward_model = SimpleRewardModel()

# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)

# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")

Чтобы глубже понять, как согласование влияет на модели с открытым исходным кодом, изучите фундаментальные исследования по согласованию языковых моделей с человеческими намерениями и узнайте, как системы компьютерного зрения (CV) используют передовые циклы обратной связи для безопасного взаимодействия с динамическими средами.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас