Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Обучение с подкреплением на основе обратной связи от человека (RLHF)

Узнайте, как обучение с подкреплением на основе обратной связи от человека (RLHF) согласует ИИ с человеческими ценностями. Изучите его основные компоненты и интеграцию с Ultralytics .

Обучение с подкреплением на основе обратной связи от человека (RLHF) — это передовая техника машинного обучения, которая совершенствует модели искусственного интеллекта путем включения прямой обратной связи от человека в цикл обучения. В отличие от стандартного обучения с учителем, которое полагается исключительно на статические наборы данных с метками, RLHF вводит динамический механизм обратной связи, при котором человеческие оценщики ранжируют или оценивают результаты модели . Этот процесс позволяет ИИ улавливать сложные, субъективные или нюансированные цели, такие как «полезность», «безопасность» или «креативность», которые трудно определить с помощью простой математической функции потерь. RLHF стал краеугольным камнем в разработке современных крупных языковых моделей (LLM) и генеративного ИИ, обеспечивая эффективное согласование мощных базовых моделей с человеческими ценностями и намерениями пользователей.

Основные компоненты RLHF

Процесс RLHF обычно состоит из трех этапов, призванных преодолеть разрыв между сырыми прогнозирующими возможностями и поведением, ориентированным на человека.

  1. Контролируемая точная настройка (SFT): Рабочий процесс обычно начинается с предварительно обученной базовой модели. Разработчики выполняют первоначальную точную настройку, используя небольшой высококачественный набор данных демонстраций (например, пары вопросов и ответов, написанные экспертами). Этот шаг устанавливает базовую политику, обучая модель общему формату и тону, ожидаемому для задачи.
  2. Обучение модели вознаграждения: эта фаза является отличительной особенностью RLHF. Аннотаторы-люди проверяют несколько результатов, сгенерированных моделью для одного и того же ввода, и ранжируют их от лучшего к худшему. Эта работа по маркировке данных генерирует набор данных о предпочтениях. Отдельная нейронная сеть, называемая моделью вознаграждения, обучается на этих сравнительных данных для прогнозирования скалярного балла, отражающего человеческое суждение. Инструменты , доступные на Ultralytics , могут оптимизировать управление такими рабочими процессами аннотирования.
  3. Оптимизация с помощью обучения с подкреплением: Наконец, исходная модель действует как агент искусственного интеллекта в среде обучения с подкреплением. Используя модель вознаграждения в качестве ориентира, алгоритмы оптимизации, такие как Proximal Policy Optimization (PPO), корректируют параметры модели для максимизации ожидаемого вознаграждения. Этот шаг согласовывает политику модели с изученными человеческими предпочтениями, поощряя полезное и безопасное поведение и препятствуя токсичным или бессмысленным результатам.

Применение в реальном мире

RLHF сыграла решающую роль в развертывании систем ИИ, которые требуют высоких стандартов безопасности и тонкого понимания человеческого взаимодействия.

  • Разговорный ИИ и чат-боты: Наиболее известное применение RLHF — это настройка чат-ботов, чтобы они были полезными, безвредными и честными. Штрафуя результаты, которые являются предвзятыми, фактически неверными или опасными, RLHF помогает смягчить галлюцинации в LLM и снижает риск алгоритмической предвзятости. Это гарантирует, что виртуальные помощники могут отклонять вредные инструкции, оставаясь полезными для законных запросов.
  • Робототехника и физический контроль: RLHF выходит за рамки текста и распространяется на ИИ в робототехнике, где определение идеальной функции вознаграждения для сложных физических задач является сложной задачей. Например, робот, обучающийся навигации по переполненному складу, может получать отзывы от человеческих супервайзеров о том, какие траектории были безопасными, а какие вызывали сбои. Эти отзывы совершенствуют политику управления роботом более эффективно, чем простое глубокое обучение с подкреплением, основанное исключительно на достижении цели.

RLHF по сравнению со стандартным обучением с подкреплением

Чтобы понять специфическую полезность RLHF, полезно отличать его от традиционного обучения с подкреплением (RL).

  • Стандартный RL: В традиционных условиях функция вознаграждения часто жестко запрограммирована средой. Например, в видеоигре среда дает четкий сигнал (+1 за победу, -1 за поражение). Агент оптимизирует свои действия в рамках этого определенного марковского процесса принятия решений (MDP).
  • RLHF: Во многих реальных сценариях, таких как написание творческого рассказа или вежливое вождение автомобиля, «успех» является субъективным понятием. RLHF решает эту проблему, заменяя жестко запрограммированное вознаграждение моделью вознаграждения, основанной на предпочтениях человека. Это позволяет оптимизировать абстрактные понятия, такие как «качество» или «уместность», которые невозможно запрограммировать явно.

Интеграция восприятия с циклами обратной связи

В визуальных приложениях агенты, ориентированные на RLHF, часто полагаются на компьютерное зрение (CV) для восприятия состояния своей среды перед действием. Надежный детектор, такой как YOLO26, функционирует как слой восприятия, предоставляя структурированные наблюдения (например, «препятствие обнаружено на расстоянии 3 метров»), которые сеть политик использует для выбора действия.

Следующий Python иллюстрирует упрощенную концепцию, в которой YOLO предоставляет состояние окружающей среды. В полном цикле RLHF сигнал «вознаграждения» будет поступать от модели, обученной на основе обратной связи от человека относительно решений агента, основанных на этих данных обнаружения.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Объединяя мощные модели восприятия с политиками, усовершенствованными с помощью обратной связи от людей, разработчики могут создавать системы, которые не только интеллектуальны, но и строго соответствуют принципам безопасности ИИ. Продолжающиеся исследования в области масштабируемого надзора, такие как Constitutional AI, продолжают развивать эту область, стремясь уменьшить узкое место крупномасштабных аннотаций, выполняемых людьми, при одновременном поддержании высокой производительности моделей.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас