Reinforcement Learning from Human Feedback (RLHF)
Узнай, как обучение с подкреплением на основе отзывов людей (RLHF) выравнивает ИИ с человеческими ценностями. Изучи его ключевые компоненты и интеграцию с Ultralytics YOLO26.
Обучение с подкреплением на основе отзывов людей (RLHF) — это передовой метод машинного обучения, который совершенствует модели искусственного интеллекта за счет включения непосредственного человеческого участия в цикл обучения. В отличие от стандартного обучения с учителем, которое опирается исключительно на статические размеченные наборы данных, RLHF вводит динамический механизм обратной связи, где люди-оценщики ранжируют или оценивают результаты работы модели. Этот процесс позволяет ИИ улавливать сложные, субъективные или тонкие цели, такие как «полезность», «безопасность» или «креативность», которые трудно определить с помощью простой математической функции потерь. RLHF стал краеугольным камнем в разработке современных больших языковых моделей (LLM) и генеративного ИИ, гарантируя, что мощные базовые модели эффективно согласуются с человеческими ценностями и намерениями пользователей.
Link to this sectionОсновные компоненты RLHF#
Процесс RLHF обычно состоит из трехэтапного конвейера, призванного преодолеть разрыв между базовыми прогностическими возможностями и поведением, соответствующим ожиданиям человека.
-
Контролируемая донастройка (SFT): рабочий процесс обычно начинается с предварительно обученной базовой модели. Разработчики выполняют начальную донастройку, используя небольшой качественный набор данных демонстраций (например, пары вопрос-ответ, написанные экспертами). Этот этап создает базовую стратегию, обучая модель общему формату и тону, ожидаемым для выполнения задачи.
-
Обучение модели вознаграждения: эта фаза является отличительной чертой RLHF. Аннотаторы-люди просматривают несколько вариантов ответов, созданных моделью для одного и того же ввода, и ранжируют их от лучшего к худшему. Эта работа по разметке данных создает набор данных предпочтений. Отдельная нейронная сеть, называемая моделью вознаграждения, обучается на этих данных сравнения, чтобы предсказывать скалярную оценку, отражающую человеческое суждение. Инструменты, доступные на платформе Ultralytics, позволяют упростить управление такими процессами аннотирования.
-
Оптимизация обучения с подкреплением: наконец, исходная модель выступает в роли агента ИИ в среде обучения с подкреплением. Используя модель вознаграждения в качестве ориентира, алгоритмы оптимизации, такие как проксимальная оптимизация стратегии (PPO), корректируют параметры модели для максимизации ожидаемого вознаграждения. Этот шаг согласовывает стратегию модели с изученными человеческими предпочтениями, поощряя полезные и безопасные действия и пресекая токсичные или бессмысленные ответы.
Link to this sectionРеальные приложения#
RLHF доказал свою критическую важность при развертывании систем ИИ, требующих высоких стандартов безопасности и глубокого понимания взаимодействия с человеком.
- Разговорный ИИ и чат-боты: наиболее заметное применение RLHF — это настройка чат-ботов на то, чтобы они были полезными, безопасными и честными. Штрафуя ответы, которые предвзяты, фактически неверны или опасны, RLHF помогает снизить вероятность галлюцинаций в LLM и уменьшает риск алгоритмической предвзятости. Это гарантирует, что виртуальные помощники могут отклонять вредоносные инструкции, оставаясь при этом полезными для правомерных запросов.
- Робототехника и физическое управление: RLHF выходит за рамки текста и применяется в ИИ для робототехники, где сложно определить идеальную функцию вознаграждения для комплексных физических задач. Например, робот, обучающийся навигации на переполненном складе, может получать обратную связь от операторов-людей о том, какие траектории были безопасными, а какие привели к сбоям. Эта обратная связь совершенствует стратегию управления робота более эффективно, чем простое глубинное обучение с подкреплением, основанное исключительно на достижении цели.
Link to this sectionRLHF против стандартного обучения с подкреплением#
Полезно отличать RLHF от традиционного обучения с подкреплением (RL), чтобы понять его специфическую пользу.
- Стандартное RL: в традиционных сценариях функция вознаграждения часто жестко задается средой. Например, в видеоигре среда предоставляет четкий сигнал (+1 за победу, -1 за проигрыш). Агент оптимизирует свои действия в рамках этого определенного Марковского процесса принятия решений (MDP).
- RLHF: во многих реальных сценариях, таких как написание творческого рассказа или вежливое вождение, «успех» субъективен. RLHF решает эту проблему, заменяя жестко заданное вознаграждение на модель вознаграждения, полученную на основе человеческих предпочтений. Это позволяет оптимизировать абстрактные понятия, такие как «качество» или «уместность», которые невозможно запрограммировать явно.
Link to this sectionИнтеграция восприятия с циклами обратной связи#
В визуальных приложениях агенты, использующие RLHF, часто полагаются на компьютерное зрение (CV) для восприятия состояния окружающей среды перед выполнением действий. Надежный детектор, такой как YOLO26, функционирует как уровень восприятия, предоставляя структурированные наблюдения (например, «препятствие обнаружено на расстоянии 3 метров»), которые стратегическая сеть использует для выбора действия.
Следующий пример на Python иллюстрирует упрощенную концепцию, где модель YOLO предоставляет данные о состоянии среды. В полном цикле RLHF сигнал «вознаграждения» исходил бы от модели, обученной на отзывах людей относительно решений агента, принятых на основе данных обнаружения.
from ultralytics import YOLO
# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)
print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.Комбинируя мощные модели восприятия со стратегиями, доработанными с помощью обратной связи от людей, разработчики могут создавать системы, которые не только интеллектуальны, но и строго соответствуют принципам безопасности ИИ. Текущие исследования в области масштабируемого контроля, такие как Constitutional AI, продолжают развивать эту область, стремясь снизить проблему нехватки масштабной человеческой аннотации при сохранении высокой производительности модели.






