Изучите моделирование вознаграждений в машинном обучении. Узнайте, как оно использует обратную связь от людей для согласования действий агентов ИИ и моделей Ultralytics , чтобы обеспечить более безопасную и точную работу.
Моделирование вознаграждений — это метод машинного обучения, используемый для обучения систем искусственного интеллекта оценке и приоритезации собственного поведения на основе человеческих предпочтений. В традиционных средах обучения с подкреплением агент искусственного интеллекта учится, максимизируя заранее определенную, математически жесткую функцию вознаграждения, такую как оценка в видеоигре. Однако для сложных реальных задач, где «хорошее» поведение является субъективным или имеет нюансы, например, написание вежливого электронного письма или безопасное пересечение перекрестка, написание безупречной функции вознаграждения вручную практически невозможно. Моделирование вознаграждения решает эту проблему путем обучения вторичной нейронной сети (модели вознаграждения), которая действует как прокси для человеческого суждения. Эта модель оценивает результаты первичного ИИ и присваивает скалярные оценки, динамически направляя основную модель к безопасному, полезному и точному поведению.
Процесс создания модели вознаграждений в значительной степени зависит от сбора высококачественных отзывов от людей.
Важно отличать моделирование вознаграждений от обучения с подкреплением на основе обратной связи от человека (RLHF). Хотя эти два термина часто обсуждаются вместе, они не являются синонимами. RLHF — это комплексный концептуальный подход, используемый для согласования моделей, включающий в себя контролируемую точную настройку, сбор данных и обновление политик. Моделирование вознаграждений — это конкретный, важнейший компонент в конвейере RLHF. Он служит мостом, который преобразует дискретные человеческие рейтинги в непрерывный математический сигнал, по которому алгоритм обучения с подкреплением может оптимизироваться.
Моделирование вознаграждений играет важную роль в разработке современных систем ИИ, которые напрямую взаимодействуют с людьми и физическим миром.
В следующем Python используется torch демонстрировать основополагающую структуру модели вознаграждения. На
практике эта сеть учится присваивать более высокий скалярный балл выходу, который соответствует человеческим предпочтениям.
import torch
import torch.nn as nn
# Define a simplified reward model architecture
class SimpleRewardModel(nn.Module):
def __init__(self):
super().__init__()
# Maps the AI's output embedding to a single reward score
self.fc = nn.Linear(768, 1)
def forward(self, embeddings):
return self.fc(embeddings)
# Initialize the model
reward_model = SimpleRewardModel()
# Simulated embeddings for a human-preferred action and a rejected action
chosen_action = torch.randn(1, 768)
rejected_action = torch.randn(1, 768)
# The model predicts scalar scores to guide the primary agent
print(f"Chosen Action Reward: {reward_model(chosen_action).item():.4f}")
print(f"Rejected Action Reward: {reward_model(rejected_action).item():.4f}")
Чтобы глубже понять, как согласование влияет на модели с открытым исходным кодом, изучите фундаментальные исследования по согласованию языковых моделей с человеческими намерениями и узнайте, как системы компьютерного зрения (CV) используют передовые циклы обратной связи для безопасного взаимодействия с динамическими средами.