Глоссарий

Глубокое обучение с подкреплением

Откройте для себя возможности глубокого обучения с подкреплением, с помощью которого искусственный интеллект обучается сложному поведению для решения задач в играх, робототехнике, здравоохранении и других областях.

Глубокое обучение с подкреплением (DRL) - это область машинного обучения (ML), которая сочетает в себе принципы обучения с подкреплением (RL) и возможности глубокого обучения (DL). Оно позволяет агентам ИИ обучаться оптимальным стратегиям принятия решений методом проб и ошибок в сложных, высокоразмерных средах. Благодаря использованию глубоких нейронных сетей модели DRL могут обрабатывать необработанные сенсорные данные, например пиксели с изображения или данные датчиков, не требуя ручной настройки характеристик. Это позволяет им решать задачи, которые ранее были неразрешимы для традиционных методов RL.

Как работает глубокое обучение с подкреплением

В типичной системе DRL агент взаимодействует с окружающей средой в течение нескольких временных шагов. На каждом шаге агент наблюдает за состоянием среды, совершает действие и получает вознаграждение или штраф. Цель состоит в том, чтобы выучить политику - стратегию выбора действий, - которая максимизирует общее кумулятивное вознаграждение с течением времени. Глубокая" часть DRL возникает благодаря использованию глубокой нейронной сети для аппроксимации либо самой политики, либо функции ценности, которая оценивает желательность состояний или действий. Эта сеть обучается с помощью таких алгоритмов, как градиентный спуск, чтобы корректировать веса модели в зависимости от полученного вознаграждения. Весь этот процесс формализуется с помощью марковского процесса принятия решений (MDP), который обеспечивает математическую основу для моделирования последовательного принятия решений.

Отличия от других концепций

Важно отличать DRL от смежных терминов:

  • Обучение с подкреплением (RL): DRL - это современная и усовершенствованная форма RL. Хотя традиционное RL часто опирается на таблицы или линейные функции для отображения состояний на действия, оно не справляется с большими пространствами состояний (например, со всеми возможными комбинациями пикселей на экране). DRL преодолевает это ограничение, используя глубокие нейронные сети в качестве мощных аппроксиматоров функций.
  • Глубокое обучение (Deep Learning, DL): DL - это технология, которая обеспечивает способность DRL обрабатывать сложные входные данные. В то время как DL чаще всего ассоциируется с контролируемым обучением, где модели обучаются на основе помеченных наборов данных, DRL обучается на основе редких отзывов о вознаграждениях, что делает его подходящим для задач оптимизации и управления.
  • Контролируемое обучение: Эта парадигма обучения требует набора меченых данных для обучения модели, чтобы делать прогнозы. В отличие от этого, DRL не нуждается в маркированных данных; вместо этого он генерирует собственные данные путем взаимодействия с окружающей средой, руководствуясь сигналом вознаграждения. Это делает его очень эффективным для решения задач, где помеченные данные скудны или недоступны.

Применение в реальном мире

Благодаря DRL были совершены прорывы в различных сложных областях:

  • Игры: Один из самых известных примеров - AlphaGo от DeepMind, который победил лучшего в мире игрока в го. Агент DRL обучался, играя миллионы партий против самого себя, используя визуальное состояние доски для принятия стратегических решений. Аналогичным образом OpenAI Five научился играть в сложную видеоигру Dota 2 на сверхчеловеческом уровне.
  • Робототехника: DRL используется для обучения роботов сложным задачам, таким как манипулирование объектами, передвижение и сборка. Например, робот может научиться брать незнакомые предметы, напрямую обрабатывая данные с камеры и получая положительное вознаграждение за успешное взятие - эта тема рассматривается в дискуссиях о роли ИИ в робототехнике.
  • Автономные транспортные средства: DRL помогает разрабатывать сложные политики управления для навигации, планирования пути и принятия решений в динамических сценариях движения, как подробно описано в статьях об искусственном интеллекте в самоуправляемых автомобилях.
  • Управление ресурсами: DRL может оптимизировать сложные системы, такие как энергетические сети, управление светофорами и оптимизация химических реакций. В качестве примера можно привести использование DRL для управления транспортными потоками в "умных" городах.
  • Рекомендательные системы: DRL может оптимизировать последовательность рекомендаций, показываемых пользователю, чтобы максимизировать долгосрочное вовлечение или удовлетворенность.
  • Здравоохранение: ДРЛ изучается для поиска оптимальных схем лечения и дозировок лекарств на основе состояния пациента, что вносит вклад в более широкую область ИИ в здравоохранении.

Актуальность в экосистеме искусственного интеллекта

Глубокое обучение с подкреплением находится на переднем крае исследований в области ИИ, расширяя границы автономности машин. Хотя такие компании, как Ultralytics, в основном работают с современными моделями зрения, такими как Ultralytics YOLO, для решения таких задач, как обнаружение объектов и сегментация изображений, результаты работы этих систем восприятия часто являются важнейшими исходными данными для агентов DRL. Например, робот может использовать модель Ultralytics YOLO, развернутую через Ultralytics HUB, для восприятия окружающей среды (представление состояния), прежде чем политика DRL примет решение о следующем действии. Понимание DRL обеспечивает контекст для того, как расширенное восприятие вписывается в более широкие автономные системы. Этому развитию часто способствуют такие фреймворки, как PyTorch(домашняя страница PyTorch) и TensorFlow(домашняя страница TensorFlow), и тестирование в средах моделирования, таких как Gymnasium. Ведущие исследовательские организации, такие как DeepMind, и академические организации, такие как Ассоциация по развитию искусственного интеллекта (AAAI), продолжают стимулировать прогресс в этой захватывающей области.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему искусственного интеллекта. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединяйтесь сейчас
Ссылка копируется в буфер обмена