Узнайте, как обучение с подкреплением на основе обратной связи от человека (RLHF) улучшает производительность ИИ, приводя модели в соответствие с человеческими ценностями для создания более безопасного и интеллектуального ИИ.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) - это сложная система в машинном обучении (МЛ), которая согласовывает системы искусственного интеллекта (ИИ) с человеческими ценностями, предпочтениями и намерениями. В отличие от традиционного контролируемого обучения, которое тренирует модели для RLHF вводит динамический цикл обратной связи, в котором люди оценивают результаты модели. Эти Данные ранжирования используются для обучения "модели вознаграждения", которая впоследствии направляет ИИ на создание более полезных, безопасных и точных ответов. Эта техника оказалась незаменимой при разработке современных больших языковых моделей (БЯМ) и генеративного ИИ, гарантируя, что мощные базовые мощные базовые модели действуют в соответствии с ожиданиями пользователя, а не просто статистически предсказывают следующее слово или пиксель.
Процесс согласования модели с помощью RLHF обычно состоит из трех этапов, которые позволяют преодолеть разрыв между необработанными прогностическими возможностями и тонким человеческим взаимодействием.
Хотя оба подхода основаны на максимизации вознаграждения, источник этого вознаграждения существенно их различает.
RLHF изменил способы взаимодействия систем искусственного интеллекта с миром, особенно в областях, требующих высоких стандартов безопасности и тонкого понимания. и тонкого понимания.
В визуальных приложениях агенты RLHF часто полагаются на компьютерного зрения (КЗ) для восприятия состояния окружающей среды. Надежный детектор, такой как YOLO11, может функционировать как "глаза" системы, предоставляя структурированные наблюдения (например, "пешеход обнаружен слева слева"), которые сеть политик использует для выбора действия.
Следующий пример иллюстрирует упрощенную концепцию, в которой модель YOLO обеспечивает состояние окружающей среды для агента. агента. В полном цикле RLHF "вознаграждение" будет определяться моделью, обученной на предпочтениях человека относительно уверенности или точности агента.
from ultralytics import YOLO
# Load YOLO11 to act as the perception layer for an RL agent
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image) to determine its state
results = model("https://ultralytics.com/images/bus.jpg")
# In an RL loop, the agent's 'reward' might depend on detecting critical objects
# Here, we simulate a simple reward based on the confidence of detections
# In RLHF, this reward function would be a complex learned model
observed_reward = sum(box.conf.item() for box in results[0].boxes)
print(f"Agent Observation: Detected {len(results[0].boxes)} objects.")
print(f"Simulated Reward Signal: {observed_reward:.2f}")
Сочетая мощные модели восприятия с политиками, согласованными с человеческой обратной связью, разработчики могут создавать системы, которые не только интеллектуальные, но и прошедшие строгую проверку на безопасности ИИ. Исследования в области масштабируемого надзора, такие как Конституционный ИИ, продолжают развиваться в этой области, стремясь уменьшить зависимость от крупномасштабного человеческого аннотирования.