Обучение с подкреплением
Откройте для себя обучение с подкреплением, где агенты оптимизируют действия методом проб и ошибок, чтобы максимизировать вознаграждения. Изучите концепции, приложения и преимущества!
Обучение с подкреплением (RL) - это динамическое подразделение
Машинное обучение (ML), направленное на обучение
автономного агента ИИ принимать оптимальные решения путем
проб и ошибок. В отличие от других парадигм обучения, которые опираются на статичные наборы данных, RL предполагает взаимодействие агента с
динамической средой для достижения определенной цели. Агент получает обратную связь в виде вознаграждений или наказаний на основе
на основе своих действий, постепенно совершенствуя свою стратегию, чтобы максимизировать совокупное вознаграждение с течением времени. Этот процесс отражает
концепцию
оперантного обусловливания в поведенческой психологии, где поведение подкрепляется последствиями.
Основные концепции и механика
Схема обучения с подкреплением часто математически описывается как
Марковский процесс принятия решений (МПР). Чтобы
Чтобы понять, как работает этот цикл, полезно разделить основные компоненты, вовлеченные в цикл обучения:
-
Агент искусственного интеллекта: Обучаемый или лицо, принимающее решения.
который воспринимает окружающую среду и выполняет действия.
-
Окружение: Физический или виртуальный мир, в котором действует агент. В контексте
ИИ в видеоиграх,
это игровой мир; в робототехнике - физическое пространство.
-
Состояние: Снимок текущей ситуации, предоставляемый агенту. Часто это связано с сенсорным
входные данные, такие как данные от
системы компьютерного зрения (CV).
-
Действие: Конкретный ход или решение, принятое агентом. Набор всех возможных действий называется
пространством действий.
-
Награда: Числовой сигнал, получаемый из окружающей среды после выполнения действия. Положительные вознаграждения
поощряют поведение, в то время как отрицательные награды (наказания) препятствуют ему.
-
Политика: Стратегия или набор правил, которые агент использует для определения следующего действия на основе текущего состояния.
текущего состояния.
Реальные применения обучения с подкреплением
RL вышла за рамки теоретических исследований и теперь используется в сложных, реально работающих системах в различных отраслях промышленности.
-
ИИ в робототехнике: В производстве
и логистике роботы используют RL для обучения сложным манипуляционным задачам, таким как захват объектов различной формы.
Вместо того чтобы жестко кодировать каждое движение, робот учится корректировать свой захват на основе физической обратной связи, что значительно
повышая эффективность в
интеллектуальных производственных средах.
-
Автономные транспортные средства:
Самостоятельно управляемые автомобили используют RL для принятия высокоуровневых решений. В то время как
модели обнаружения объектов идентифицируют пешеходов и
знаки, алгоритмы RL помогают определить наиболее безопасные и эффективные маневры, например, когда влиться в поток машин или
как проехать оживленный перекресток.
-
Управление дорожным движением: Градостроители используют RL для оптимизации времени работы светофоров. Рассматривая поток транспорта
поток как функцию вознаграждения, системы могут динамически адаптироваться, чтобы уменьшить заторы, что является ключевым компонентом
ИИ в управлении дорожным движением.
Обучение с подкреплением в сравнении со смежными терминами
Важно отличать RL от других подходов к машинному обучению, поскольку их методики обучения существенно различаются.
существенно.
-
Контролируемое обучение: Этот
Метод основан на наборе обучающих данных, содержащих
входы, сопряженные с правильными выходами (метками). Модель обучается, минимизируя ошибку между своим предсказанием и
известной меткой. В отличие от этого, RL не имеет доступа к "правильным" ответам заранее; она должна обнаружить их
в процессе взаимодействия.
-
Неподконтрольное обучение:
Это поиск скрытых закономерностей или структур в немаркированных данных, например группировка клиентов с помощью
k-means кластеризации. RL отличается тем, что его
целью является максимизация сигнала вознаграждения, а не просто анализ распределения данных.
-
Глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL):
Если RL определяет парадигму обучения, то DRL объединяет ее с
глубоким обучением. В DRL
нейронные сети используются для аппроксимации
политики или функции ценности, что позволяет агенту работать с высокоразмерными входными данными, такими как пиксели необработанных изображений.
Интеграция компьютерного зрения с RL
Во многих приложениях "состояние", которое наблюдает агент, является визуальным. Высокопроизводительные модели зрения, такие как
YOLO11 часто используются в качестве слоя восприятия для RL
агентов. Модель зрения обрабатывает сцену для detect объектов, и эта структурированная информация передается агенту RL
агенту RL для принятия решения о следующем действии.
Следующий пример демонстрирует, как использовать модель YOLO для генерации состояния (обнаруженных объектов), которое может быть подано
в цикл принятия решений RL.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
Чтобы изучить, как эти концепции масштабируются, исследователи часто используют такие среды, как
OpenAI Gym (теперь Gymnasium) для стандартизации тестирования алгоритмов RL. По мере того как
по мере роста вычислительных мощностей, такие методы, как
Reinforcement Learning from Human Feedback (RLHF)
способствуют дальнейшему совершенствованию того, как агенты согласуют свои действия с человеческими ценностями.