Изучите основные концепции реинфорсментного обучения (RL). Узнайте, как агенты используют обратную связь для освоения задач, и посмотрите, как Ultralytics обеспечивает работу систем реинфорсментного обучения.
Обучение с подкреплением (RL) — это целеориентированное подмножество машинного обучения (ML), в котором автономная система, известная как агент, учится принимать решения, выполняя действия и получая обратную связь от своего окружения. В отличие от контролируемого обучения, которое опирается на статические наборы данных, помеченные правильными ответами, алгоритмы RL обучаются через динамический процесс проб и ошибок. Агент взаимодействует с симуляцией или реальным миром, наблюдая за последствиями своих действий, чтобы определить, какие стратегии приносят наибольшую долгосрочную выгоду. Этот подход близко имитирует психологическую концепцию оперантного обусловливания, в которой поведение формируется под влиянием положительного подкрепления (вознаграждения) и отрицательного подкрепления (наказания) с течением времени.
Чтобы понять, как функционирует RL, полезно представить его в виде непрерывного цикла взаимодействия. Эта структура часто формализуется математически как процесс принятия решений Маркова (MDP), который структурирует процесс принятия решений в ситуациях, когда результаты частично случайны и частично контролируются лицом, принимающим решение.
Основные компоненты этого цикла обучения включают:
Обучение с подкреплением вышло за рамки теоретических исследований и стало применяться на практике с большим эффектом в различных отраслях.
Во многих современных приложениях «состояние», которое наблюдает агент, является визуальным. Высокопроизводительные модели, такие как YOLO26, действуют как слой восприятия для агентов RL, преобразуя исходные изображения в структурированные данные. Эта обработанная информация, такая как местоположение и класс объектов, становится состоянием, которое политика RL использует для выбора действия.
Следующий пример демонстрирует, как использовать ultralytics пакет для обработки фрейма окружения,
создавая представление состояния (например, количество объектов) для теоретического цикла RL.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
Важно отличать обучение с подкреплением от других парадигм машинного обучения:
По мере увеличения вычислительной мощности такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF), позволяют еще больше усовершенствовать процесс обучения агентов, более точно согласовывая их цели со сложными человеческими ценностями и стандартами безопасности Исследователи часто используют стандартизированные среды, такие как Gymnasium, для тестирования и улучшения этих алгоритмов. Для команд, которые хотят управлять наборами данных, необходимыми для уровней восприятия этих агентов, Ultralytics предлагает комплексные инструменты для аннотирования и управления моделями.