Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Reinforcement Learning from Human Feedback (RLHF)

Узнай, как обучение с подкреплением на основе отзывов людей (RLHF) выравнивает ИИ с человеческими ценностями. Изучи его ключевые компоненты и интеграцию с Ultralytics YOLO26.

Обучение с подкреплением на основе отзывов людей (RLHF) — это передовой метод машинного обучения, который совершенствует модели искусственного интеллекта за счет включения непосредственного человеческого участия в цикл обучения. В отличие от стандартного обучения с учителем, которое опирается исключительно на статические размеченные наборы данных, RLHF вводит динамический механизм обратной связи, где люди-оценщики ранжируют или оценивают результаты работы модели. Этот процесс позволяет ИИ улавливать сложные, субъективные или тонкие цели, такие как «полезность», «безопасность» или «креативность», которые трудно определить с помощью простой математической функции потерь. RLHF стал краеугольным камнем в разработке современных больших языковых моделей (LLM) и генеративного ИИ, гарантируя, что мощные базовые модели эффективно согласуются с человеческими ценностями и намерениями пользователей.

Link to this sectionОсновные компоненты RLHF#

Процесс RLHF обычно состоит из трехэтапного конвейера, призванного преодолеть разрыв между базовыми прогностическими возможностями и поведением, соответствующим ожиданиям человека.

  1. Контролируемая донастройка (SFT): рабочий процесс обычно начинается с предварительно обученной базовой модели. Разработчики выполняют начальную донастройку, используя небольшой качественный набор данных демонстраций (например, пары вопрос-ответ, написанные экспертами). Этот этап создает базовую стратегию, обучая модель общему формату и тону, ожидаемым для выполнения задачи.

  2. Обучение модели вознаграждения: эта фаза является отличительной чертой RLHF. Аннотаторы-люди просматривают несколько вариантов ответов, созданных моделью для одного и того же ввода, и ранжируют их от лучшего к худшему. Эта работа по разметке данных создает набор данных предпочтений. Отдельная нейронная сеть, называемая моделью вознаграждения, обучается на этих данных сравнения, чтобы предсказывать скалярную оценку, отражающую человеческое суждение. Инструменты, доступные на платформе Ultralytics, позволяют упростить управление такими процессами аннотирования.

  3. Оптимизация обучения с подкреплением: наконец, исходная модель выступает в роли агента ИИ в среде обучения с подкреплением. Используя модель вознаграждения в качестве ориентира, алгоритмы оптимизации, такие как проксимальная оптимизация стратегии (PPO), корректируют параметры модели для максимизации ожидаемого вознаграждения. Этот шаг согласовывает стратегию модели с изученными человеческими предпочтениями, поощряя полезные и безопасные действия и пресекая токсичные или бессмысленные ответы.

Link to this sectionРеальные приложения#

RLHF доказал свою критическую важность при развертывании систем ИИ, требующих высоких стандартов безопасности и глубокого понимания взаимодействия с человеком.

  • Разговорный ИИ и чат-боты: наиболее заметное применение RLHF — это настройка чат-ботов на то, чтобы они были полезными, безопасными и честными. Штрафуя ответы, которые предвзяты, фактически неверны или опасны, RLHF помогает снизить вероятность галлюцинаций в LLM и уменьшает риск алгоритмической предвзятости. Это гарантирует, что виртуальные помощники могут отклонять вредоносные инструкции, оставаясь при этом полезными для правомерных запросов.
  • Робототехника и физическое управление: RLHF выходит за рамки текста и применяется в ИИ для робототехники, где сложно определить идеальную функцию вознаграждения для комплексных физических задач. Например, робот, обучающийся навигации на переполненном складе, может получать обратную связь от операторов-людей о том, какие траектории были безопасными, а какие привели к сбоям. Эта обратная связь совершенствует стратегию управления робота более эффективно, чем простое глубинное обучение с подкреплением, основанное исключительно на достижении цели.

Link to this sectionRLHF против стандартного обучения с подкреплением#

Полезно отличать RLHF от традиционного обучения с подкреплением (RL), чтобы понять его специфическую пользу.

  • Стандартное RL: в традиционных сценариях функция вознаграждения часто жестко задается средой. Например, в видеоигре среда предоставляет четкий сигнал (+1 за победу, -1 за проигрыш). Агент оптимизирует свои действия в рамках этого определенного Марковского процесса принятия решений (MDP).
  • RLHF: во многих реальных сценариях, таких как написание творческого рассказа или вежливое вождение, «успех» субъективен. RLHF решает эту проблему, заменяя жестко заданное вознаграждение на модель вознаграждения, полученную на основе человеческих предпочтений. Это позволяет оптимизировать абстрактные понятия, такие как «качество» или «уместность», которые невозможно запрограммировать явно.

Link to this sectionИнтеграция восприятия с циклами обратной связи#

В визуальных приложениях агенты, использующие RLHF, часто полагаются на компьютерное зрение (CV) для восприятия состояния окружающей среды перед выполнением действий. Надежный детектор, такой как YOLO26, функционирует как уровень восприятия, предоставляя структурированные наблюдения (например, «препятствие обнаружено на расстоянии 3 метров»), которые стратегическая сеть использует для выбора действия.

Следующий пример на Python иллюстрирует упрощенную концепцию, где модель YOLO предоставляет данные о состоянии среды. В полном цикле RLHF сигнал «вознаграждения» исходил бы от модели, обученной на отзывах людей относительно решений агента, принятых на основе данных обнаружения.

from ultralytics import YOLO

# Load YOLO26n to act as the perception layer for an intelligent agent
model = YOLO("yolo26n.pt")

# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")

# In an RL context, the 'state' is derived from detections
# A reward model (trained via RLHF) would evaluate the action taken based on this state
detected_objects = len(results[0].boxes)

print(f"Agent Observation: Detected {detected_objects} objects.")
# Example output: Agent Observation: Detected 4 objects.

Комбинируя мощные модели восприятия со стратегиями, доработанными с помощью обратной связи от людей, разработчики могут создавать системы, которые не только интеллектуальны, но и строго соответствуют принципам безопасности ИИ. Текущие исследования в области масштабируемого контроля, такие как Constitutional AI, продолжают развивать эту область, стремясь снизить проблему нехватки масштабной человеческой аннотации при сохранении высокой производительности модели.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения