Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обучение с подкреплением на основе обратной связи от человека (RLHF)

Узнайте, как обучение с подкреплением на основе обратной связи от человека (RLHF) улучшает производительность ИИ, приводя модели в соответствие с человеческими ценностями для создания более безопасного и интеллектуального ИИ.

Обучение с подкреплением на основе человеческой обратной связи (RLHF) - это сложная система в машинном обучении (МЛ), которая согласовывает системы искусственного интеллекта (ИИ) с человеческими ценностями, предпочтениями и намерениями. В отличие от традиционного контролируемого обучения, которое тренирует модели для RLHF вводит динамический цикл обратной связи, в котором люди оценивают результаты модели. Эти Данные ранжирования используются для обучения "модели вознаграждения", которая впоследствии направляет ИИ на создание более полезных, безопасных и точных ответов. Эта техника оказалась незаменимой при разработке современных больших языковых моделей (БЯМ) и генеративного ИИ, гарантируя, что мощные базовые мощные базовые модели действуют в соответствии с ожиданиями пользователя, а не просто статистически предсказывают следующее слово или пиксель.

Рабочий процесс RLHF

Процесс согласования модели с помощью RLHF обычно состоит из трех этапов, которые позволяют преодолеть разрыв между необработанными прогностическими возможностями и тонким человеческим взаимодействием.

  1. Supervised Fine-Tuning (SFT): Процесс обычно начинается с предварительно обученной базовой модели. Разработчики используют тонкую настройку на небольшом высококачественном наборе данных (например, диалогов или демонстраций), чтобы научить модель основному формату требуемой задачи.
  2. Обучение модели вознаграждения: Это основа RLHF. Человек-аннотатор просматривает несколько результатов, полученных модели для одного и того же входного сигнала и ранжируют их от лучшего к худшему. Этот процесс маркировки данных создает набор данных предпочтений. Отдельная нейронная сеть, известная как модель вознаграждения, обучается на этих сравнительных данных, чтобы предсказать скалярную оценку вознаграждения, которая имитирует человеческое суждение.
  3. Оптимизация с применением обучения с подкреплением: Исходная модель фактически превращается в агентом искусственного интеллекта в в среде обучения с подкреплением. Используя модель вознаграждения в качестве руководства, такие алгоритмы, как Оптимизация проксимальной политики (PPO) настраивают параметры агента так, чтобы максимизировать ожидаемое вознаграждение. Этот шаг фундаментально изменяет политику модели, чтобы в пользу действий, таких как вежливый отказ от вредных запросов, которые соответствуют изученным предпочтениям человека.

RLHF по сравнению со стандартным обучением с подкреплением

Хотя оба подхода основаны на максимизации вознаграждения, источник этого вознаграждения существенно их различает.

  • Стандартное обучение с подкреплением (RL): В традиционном RL функция вознаграждения часто жестко закодирована или математически определена средой. Например, в игре в шахматы окружение дает четкий сигнал: +1 за победу, -1 за поражение. Агент учится методом проб и ошибок в рамках этой определенной Марковский процесс принятия решений (МПР).
  • РЛХФ: Во многих реальных задачах, таких как написание резюме или вежливое вождение автомобиля, математическую формулу "успеха" невозможно определить в явном виде. RLHF решает эту проблему, заменяя жестко закодированное вознаграждение на выученную модель вознаграждения, полученную из отзывов людей. Это позволяет оптимизировать абстрактные понятия таких как "полезность" или "безопасность", которые трудно запрограммировать напрямую.

Применение в реальном мире

RLHF изменил способы взаимодействия систем искусственного интеллекта с миром, особенно в областях, требующих высоких стандартов безопасности и тонкого понимания. и тонкого понимания.

  • Разговорный ИИ и чатботы: Наиболее часто RLHF используется для настройки чат-ботов, чтобы они были полезными и безвредными. Наказывая токсичные, предвзятые или фактически неверные результаты, RLHF помогает смягчить галлюцинаций в LLM и уменьшает предвзятость алгоритмов. Это гарантирует, что помощники смогут отказываться от опасных инструкций, оставаясь полезными для законных запросов.
  • Робототехника и автономные агенты: Не ограничиваясь текстом, РЛХВ применяется в робототехнике для обучения агентов сложным физическим задачам. Например, Например, роботизированная рука, обучающаяся захватывать хрупкие предметы, может получать от человека обратную связь о том, какие попытки захвата попытки захвата были безопасными, а не неудачными. Такая обратная связь улучшает политику управления более эффективно, чем простое глубокое обучение с подкреплением, основанное только на основе выполнения задачи. Аналогичные методы помогают автономным автомобилям в обучении вождению поведения, которое кажется естественным пассажирам.

Интеграция восприятия с RLHF

В визуальных приложениях агенты RLHF часто полагаются на компьютерного зрения (КЗ) для восприятия состояния окружающей среды. Надежный детектор, такой как YOLO11, может функционировать как "глаза" системы, предоставляя структурированные наблюдения (например, "пешеход обнаружен слева слева"), которые сеть политик использует для выбора действия.

Следующий пример иллюстрирует упрощенную концепцию, в которой модель YOLO обеспечивает состояние окружающей среды для агента. агента. В полном цикле RLHF "вознаграждение" будет определяться моделью, обученной на предпочтениях человека относительно уверенности или точности агента.

from ultralytics import YOLO

# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)

print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")

Сочетая мощные модели восприятия с политиками, согласованными с человеческой обратной связью, разработчики могут создавать системы, которые не только интеллектуальные, но и прошедшие строгую проверку на безопасности ИИ. Исследования в области масштабируемого надзора, такие как Конституционный ИИ, продолжают развиваться в этой области, стремясь уменьшить зависимость от крупномасштабного человеческого аннотирования.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас