Reinforcement Learning
Изучи основные концепции обучения с подкреплением (RL). Узнай, как агенты используют обратную связь для освоения задач, и посмотри, как Ultralytics YOLO26 питает системы машинного зрения на основе RL.
Обучение с подкреплением (RL) — это ориентированное на достижение целей подмножество машинного обучения (ML), в котором автономная система, называемая агентом, учится принимать решения путем выполнения действий и получения обратной связи от окружающей среды. В отличие от обучения с учителем, которое опирается на статические наборы данных, размеченные правильными ответами, алгоритмы RL учатся через динамический процесс проб и ошибок. Агент взаимодействует с симуляцией или реальным миром, наблюдая за последствиями своих действий, чтобы определить, какие стратегии приносят наибольшие долгосрочные вознаграждения. Этот подход тесно имитирует психологическую концепцию оперантного обусловливания, где поведение формируется с помощью положительного (вознаграждения) и отрицательного (наказания) подкрепления с течением времени.
Link to this sectionОсновные концепции цикла RL#
Чтобы понять, как функционирует RL, полезно представить его как непрерывный цикл взаимодействия. Эта структура часто математически формализуется как Марковский процесс принятия решений (MDP), который систематизирует принятие решений в ситуациях, где результаты частично случайны, а частично контролируются лицом, принимающим решения.
Основные компоненты этого цикла обучения включают:
- Агент ИИ: Сущность, отвечающая за обучение и принятие решений. Он воспринимает среду и совершает действия для максимизации своего совокупного успеха.
- Среда: Внешний мир, в котором действует агент. Это может быть сложная видеоигра, симуляция финансового рынка или физический склад в контексте ИИ в логистике.
- Состояние: Снимок или представление текущей ситуации. В визуальных приложениях это часто включает обработку потоков с камер с использованием компьютерного зрения (CV) для обнаружения объектов и препятствий.
- Действие: Конкретный шаг или выбор, который делает агент. Полный набор всех возможных ходов называется пространством действий.
- Вознаграждение: Числовой сигнал, отправляемый из среды агенту после совершения действия. Хорошо спроектированная функция вознаграждения присваивает положительные значения полезным действиям и штрафы за вредные.
- Политика: Стратегия или набор правил, которые агент использует для определения следующего действия на основе текущего состояния. Алгоритмы, такие как Q-learning, определяют, как эта политика обновляется и оптимизируется.
Link to this sectionРеальные приложения#
Обучение с подкреплением вышло за рамки теоретических исследований и перешло в практическое высокоэффективное внедрение в различных отраслях.
- Передовая робототехника: В области ИИ в робототехнике RL позволяет машинам осваивать сложные моторные навыки, которые трудно запрограммировать вручную. Роботы могут научиться захватывать объекты неправильной формы или перемещаться по неровной местности, тренируясь внутри физических движков, таких как NVIDIA Isaac Sim, прежде чем переходить к работе в реальном мире.
- Автономные системы: Автономные транспортные средства используют RL для принятия решений в режиме реального времени в непредсказуемых дорожных ситуациях. В то время как модели обнаружения объектов идентифицируют пешеходов и знаки, алгоритмы RL помогают определить безопасные политики вождения для перестроения в полосу и проезда перекрестков.
- Стратегическая оптимизация: RL привлекло всеобщее внимание, когда системы, подобные AlphaGo от Google DeepMind, победили чемпионов мира среди людей в сложных настольных играх. Помимо игр, эти агенты оптимизируют промышленную логистику, например, управляя системами охлаждения в центрах обработки данных для снижения энергопотребления.
Link to this sectionИнтеграция зрения с RL#
Во многих современных приложениях "состояние", которое наблюдает агент, является визуальным. Высокопроизводительные модели, такие как YOLO26, действуют как слой восприятия для агентов RL, преобразуя необработанные изображения в структурированные данные. Эта обработанная информация — такая как местоположение и класс объектов — становится состоянием, которое политика RL использует для выбора действия.
Следующий пример демонстрирует, как использовать пакет ultralytics для обработки кадра среды, создавая представление состояния (например, количество объектов) для теоретического цикла RL.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")Link to this sectionРазграничение похожих терминов#
Важно отличать обучение с подкреплением от других парадигм машинного обучения:
- vs. Обучение с учителем: Обучение с учителем требует знающего внешнего учителя для предоставления размеченных обучающих данных (например, "на этом изображении кошка"). Напротив, RL учится на последствиях своих собственных действий без явных меток, обнаруживая оптимальные пути через исследование.
- vs. Обучение без учителя: Обучение без учителя фокусируется на поиске скрытых структур или закономерностей в неразмеченных данных (например, кластеризация клиентов). RL отличается тем, что оно явно ориентировано на цель, фокусируясь на максимизации сигнала вознаграждения, а не просто на описании структуры данных.
По мере роста вычислительной мощности такие методы, как обучение с подкреплением на основе отзывов людей (RLHF), еще больше совершенствуют то, как учатся агенты, приводя их цели в более тесное соответствие со сложными человеческими ценностями и стандартами безопасности. Исследователи часто используют стандартизированные среды, такие как Gymnasium, для тестирования и улучшения этих алгоритмов. Для команд, которые ищут способ управления наборами данных, необходимыми для слоев восприятия этих агентов, платформа Ultralytics предлагает комплексные инструменты для аннотирования и управления моделями.






