Глоссарий

Обучение с подкреплением

Откройте для себя обучение с подкреплением, где агенты оптимизируют действия методом проб и ошибок, чтобы максимизировать вознаграждения. Изучите концепции, приложения и преимущества!

Обучение с подкреплением (RL) — это область машинного обучения (ML), в которой интеллектуальный агент учится принимать оптимальные решения методом проб и ошибок. В отличие от других парадигм обучения, агенту не говорят, какие действия предпринимать. Вместо этого он взаимодействует со средой и получает обратную связь в виде вознаграждений или штрафов. Основная цель агента — выработать стратегию, известную как политика, которая максимизирует его совокупное вознаграждение с течением времени. Этот подход вдохновлен поведенческой психологией и особенно эффективен для решения задач последовательного принятия решений, как указано в основополагающем тексте Саттона и Барто.

Как работает обучение с подкреплением

Процесс RL моделируется как непрерывный цикл обратной связи, включающий несколько ключевых компонентов:

Агент: Учащийся и принимающий решения, например робот или программа для игр.
Окружающая среда: Внешний мир, с которым взаимодействует агент.
Состояние: Снимок окружающей среды в определенный момент, предоставляющий агенту информацию, необходимую для принятия решения.
Действие: Ход, выбранный агентом из набора возможных вариантов.
Вознаграждение: Численный сигнал, отправляемый из среды агенту после каждого действия, указывающий, насколько желательным было это действие.

Агент наблюдает за текущим состоянием среды, выполняет действие и получает вознаграждение вместе со следующим состоянием. Этот цикл повторяется, и благодаря этому опыту агент постепенно совершенствует свою политику, чтобы отдавать предпочтение действиям, которые приводят к более высоким долгосрочным вознаграждениям. Формальная структура для этой проблемы часто описывается марковским процессом принятия решений (MDP). Популярные алгоритмы RL включают Q-обучение и градиенты политики.

Сравнение с другими парадигмами обучения

RL отличается от других основных типов машинного обучения:

Обучение с учителем: При обучении с учителем модель учится на наборе данных, который полностью помечен правильными ответами. Например, модель классификации изображений обучается на изображениях с явными метками. В отличие от этого, RL учится на сигналах вознаграждения без явного указания на то, какое действие является наилучшим на каждом шагу. Вы можете изучить подробное сравнение обучения с учителем и обучения без учителя.
Обучение без учителя: Эта парадигма включает в себя поиск скрытых закономерностей или структур в неразмеченных данных. Его цель — исследование данных, например, с использованием кластеризации k-средних, а не принятие решений для максимизации вознаграждения.
Глубокое обучение с подкреплением (DRL): DRL — это не другая парадигма, а продвинутая форма RL, использующая глубокие нейронные сети для обработки сложных многомерных пространств состояний и действий. Это позволяет масштабировать RL для решения задач, которые ранее считались неразрешимыми, таких как обработка необработанных пиксельных данных с камеры для автономных транспортных средств.

Применение в реальном мире

RL добилась значительных успехов в различных сложных областях:

Игра в игры: Агенты RL достигли сверхчеловеческой производительности в сложных играх. Ярким примером является AlphaGo от DeepMind, которая научилась побеждать лучших игроков в го в мире. Другой пример — работа OpenAI над Dota 2, где агент изучил сложные командные стратегии.
Робототехника: RL используется для обучения роботов выполнению сложных задач, таких как манипулирование объектами, сборка и передвижение. Вместо явного программирования робот может научиться ходить или захватывать объекты, получая вознаграждение за успешные попытки в смоделированной или реальной среде. Это ключевая область исследований в таких учреждениях, как Лаборатория исследований искусственного интеллекта Беркли (BAIR).
Управление ресурсами: Оптимизация операций в сложных системах, таких как управление транспортным потоком в городах, балансировка нагрузки в энергосетях и оптимизация химических реакций.
Системы рекомендаций: RL можно использовать для оптимизации последовательности элементов, рекомендуемых пользователю, чтобы максимизировать долгосрочное вовлечение и удовлетворение, а не просто немедленные клики.

Актуальность в экосистеме ИИ

Обучение с подкреплением является важным компонентом более широкой области искусственного интеллекта (ИИ), особенно для создания автономных систем. В то время как такие компании, как Ultralytics, специализируются на моделях компьютерного зрения, таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров с использованием обучения с учителем, возможности восприятия этих моделей являются важными входными данными для агентов RL.

Например, робот может использовать модель YOLO для восприятия, развернутую через Ultralytics HUB, чтобы понимать свое окружение («состояние»). Затем политика RL использует эту информацию для принятия решения о следующем шаге. Эта синергия между компьютерным зрением (CV) для восприятия и RL для принятия решений имеет основополагающее значение для построения интеллектуальных систем. Эти системы часто разрабатываются с использованием таких фреймворков, как PyTorch и TensorFlow, и часто тестируются в стандартизированных средах моделирования, таких как Gymnasium (ранее OpenAI Gym). Для улучшения согласования модели с предпочтениями человека в этой области также приобретают все большее значение такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF). Прогресс в RL постоянно стимулируется такими организациями, как DeepMind, и академическими конференциями, такими как NeurIPS.

Обучение с подкреплением

Обучайте модели Ultralytics YOLO для оптимизации рабочих процессов в различных отраслях

Гибкое корпоративное лицензирование для развития ваших инноваций

Обучайте AI-модели за секунды с Ultralytics YOLO

Как работает обучение с подкреплением

Сравнение с другими парадигмами обучения

Применение в реальном мире

Актуальность в экосистеме ИИ

Читать больше в этой категории

От битов к кубитам: Как квантовая оптимизация меняет ИИ

Краткое руководство для начинающих о том, как обучить модель искусственного интеллекта

Из Дубая с глубоким пониманием: Основные итоги саммита GDG MENA-T Summit 2025

Присоединяйтесь к сообществу Ultralytics