Глоссарий

Обучение с подкреплением на основе человеческой обратной связи (RLHF)

Узнайте, как Reinforcement Learning from Human Feedback (RLHF) повышает производительность ИИ, согласовывая модели с человеческими ценностями для более безопасного и умного ИИ.

Reinforcement Learning from Human Feedback (RLHF) - это передовой метод машинного обучения, разработанный для согласования моделей искусственного интеллекта (ИИ) со сложными, субъективными человеческими ценностями. Вместо того чтобы полагаться на заранее определенную функцию вознаграждения, RLHF использует предпочтения человека для обучения "модели вознаграждения", которая направляет процесс обучения ИИ. Этот подход особенно эффективен для задач, в которых определение "хорошей" работы является нюансом, субъективным или трудно поддающимся простой метрике, например, для создания безопасного, полезного и связного диалога.

Как работает RLHF?

Процесс RLHF обычно включает три ключевых этапа:

  1. Предварительное обучение языковой модели: Начинается с базовой большой языковой модели (LLM), которая была предварительно обучена на обширном корпусе текстовых данных. Эта начальная модель, похожая на базовую, обладает широким пониманием языка, но еще не специализирована для конкретного стиля или задачи. За этим этапом может следовать контролируемая тонкая настройка на высококачественном наборе данных.
  2. Обучение модели вознаграждения: Это основа RLHF. Человеку, наклеивающему ярлыки, в ответ на запрос предъявляется несколько результатов, сгенерированных предварительно обученной моделью. Они ранжируют эти результаты от лучшего к худшему на основе таких критериев, как полезность, правдивость и безопасность. Эти данные о предпочтениях затем используются для обучения отдельной модели вознаграждения. Модель вознаграждения учится предсказывать, какие выходы предпочтет человек, эффективно отражая его мнение.
  3. Тонкая настройка с помощью обучения с усилением: Предварительно обученная модель подвергается дальнейшей тонкой настройке с помощью обучения с подкреплением (RL). На этом этапе модель (выступающая в роли агента) генерирует выходные данные, а модель вознаграждения выставляет оценку "вознаграждение" за каждый выход. Этот процесс, часто управляемый с помощью алгоритмов типа Proximal Policy Optimization (PPO), побуждает модель ИИ корректировать свои параметры, чтобы генерировать ответы, максимизирующие вознаграждение, тем самым приводя ее поведение в соответствие с изученными предпочтениями человека. Новаторская работа таких организаций, как OpenAI и DeepMind, продемонстрировала ее эффективность.

Применение в реальном мире

RLHF сыграл важную роль в разработке современных систем искусственного интеллекта.

  • Передовые чат-боты: Ведущие чат-боты с искусственным интеллектом, такие как ChatGPT от OpenAI и Claude от Anthropic, используют RLHF для обеспечения не только точности ответов, но и их безвредности, этичности и соответствия намерениям пользователя. Это позволяет избежать таких проблем, как создание предвзятого или токсичного контента, что является общей проблемой для крупномасштабного генеративного ИИ.
  • Предпочтения автономного вождения: При разработке ИИ для самоуправляемых автомобилей RLHF может учитывать отзывы водителей о моделируемом поведении, например о комфорте при смене полосы движения или принятии решений в неоднозначных ситуациях. Это помогает ИИ научиться стилю вождения, который кажется человеку интуитивным и надежным, дополняя традиционные задачи компьютерного зрения, такие как обнаружение объектов, выполняемые такими моделями, как Ultralytics YOLO.

RLHF по сравнению со смежными концепциями

Важно отличать RLHF от других методов обучения ИИ.

  • Обучение с подкреплением: Стандартное RL требует от разработчиков вручную создавать функцию вознаграждения для определения желаемого поведения. Это просто для игр с четкими оценками, но сложно для сложных, реальных задач. RLHF решает эту проблему путем обучения функции вознаграждения на основе обратной связи с человеком, что делает ее подходящей для задач без очевидной метрики успеха.
  • Контролируемое обучение: Контролируемое обучение тренирует модели на наборах данных с единственными "правильными" ответами. Такой подход менее эффективен для творческих или субъективных задач, где существует несколько правильных ответов. Использование в RLHF ранжирования предпочтений (например, "A лучше, чем B") позволяет модели ориентироваться в неоднозначности и изучать нюансы поведения.

Проблемы и будущие направления

Несмотря на свою мощь, RLHF сталкивается с проблемами. Сбор высококачественной обратной связи от людей требует больших затрат и может привести к смещению набора данных, если маркировщики не отличаются разнообразием. Кроме того, ИИ может найти способы "обмануть" модель вознаграждения - явление, известное как "взлом вознаграждения".

Будущие исследования посвящены изучению более эффективных методов обратной связи и альтернатив, таких как конституционный ИИ, который использует принципы, созданные ИИ, для управления моделью. Реализация RLHF требует опыта в различных областях машинного обучения, но такие инструменты, как библиотека TRL Hugging Face, делают ее более доступной. Платформы, подобные Ultralytics HUB, обеспечивают инфраструктуру для управления наборами данных и обучающими моделями, что является основой для выполнения сложных задач выравнивания и надежных операций машинного обучения (MLOps).

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена