Настраивайтесь на YOLO Vision 2025!
25 сентября 2025 г.
10:00 — 18:00 BST
Гибридное мероприятие
Yolo Vision 2024
Глоссарий

Обучение с подкреплением

Откройте для себя обучение с подкреплением, где агенты оптимизируют действия методом проб и ошибок, чтобы максимизировать вознаграждения. Изучите концепции, приложения и преимущества!

Обучение с подкреплением (RL) — это область машинного обучения (ML), в которой интеллектуальный агент учится принимать оптимальные решения методом проб и ошибок. В отличие от других парадигм обучения, агенту не говорят, какие действия предпринимать. Вместо этого он взаимодействует со средой и получает обратную связь в виде вознаграждений или штрафов. Основная цель агента — выработать стратегию, известную как политика, которая максимизирует его совокупное вознаграждение с течением времени. Этот подход вдохновлен поведенческой психологией и особенно эффективен для решения задач последовательного принятия решений, как указано в основополагающем тексте Саттона и Барто.

Как работает обучение с подкреплением

Процесс RL моделируется как непрерывный цикл обратной связи, включающий несколько ключевых компонентов:

  • Агент: Учащийся и принимающий решения, например робот или программа для игр.
  • Окружающая среда: Внешний мир, с которым взаимодействует агент.
  • Состояние: Снимок окружающей среды в определенный момент, предоставляющий агенту информацию, необходимую для принятия решения.
  • Действие: Ход, выбранный агентом из набора возможных вариантов.
  • Вознаграждение: Численный сигнал, отправляемый из среды агенту после каждого действия, указывающий, насколько желательным было это действие.

Агент наблюдает за текущим состоянием среды, выполняет действие и получает вознаграждение вместе со следующим состоянием. Этот цикл повторяется, и благодаря этому опыту агент постепенно совершенствует свою политику, чтобы отдавать предпочтение действиям, которые приводят к более высоким долгосрочным вознаграждениям. Формальная структура для этой проблемы часто описывается марковским процессом принятия решений (MDP). Популярные алгоритмы RL включают Q-обучение и градиенты политики.

Сравнение с другими парадигмами обучения

RL отличается от других основных типов машинного обучения:

Применение в реальном мире

RL добилась значительных успехов в различных сложных областях:

  • Игра в игры: Агенты RL достигли сверхчеловеческой производительности в сложных играх. Ярким примером является AlphaGo от DeepMind, которая научилась побеждать лучших игроков в го в мире. Другой пример — работа OpenAI над Dota 2, где агент изучил сложные командные стратегии.
  • Робототехника: RL используется для обучения роботов выполнению сложных задач, таких как манипулирование объектами, сборка и передвижение. Вместо явного программирования робот может научиться ходить или захватывать объекты, получая вознаграждение за успешные попытки в смоделированной или реальной среде. Это ключевая область исследований в таких учреждениях, как Лаборатория исследований искусственного интеллекта Беркли (BAIR).
  • Управление ресурсами: Оптимизация операций в сложных системах, таких как управление транспортным потоком в городах, балансировка нагрузки в энергосетях и оптимизация химических реакций.
  • Системы рекомендаций: RL можно использовать для оптимизации последовательности элементов, рекомендуемых пользователю, чтобы максимизировать долгосрочное вовлечение и удовлетворение, а не просто немедленные клики.

Актуальность в экосистеме ИИ

Обучение с подкреплением является важным компонентом более широкой области искусственного интеллекта (ИИ), особенно для создания автономных систем. В то время как такие компании, как Ultralytics, специализируются на моделях компьютерного зрения, таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров с использованием обучения с учителем, возможности восприятия этих моделей являются важными входными данными для агентов RL.

Например, робот может использовать модель YOLO для восприятия, развернутую через Ultralytics HUB, чтобы понимать свое окружение («состояние»). Затем политика RL использует эту информацию для принятия решения о следующем шаге. Эта синергия между компьютерным зрением (CV) для восприятия и RL для принятия решений имеет основополагающее значение для построения интеллектуальных систем. Эти системы часто разрабатываются с использованием таких фреймворков, как PyTorch и TensorFlow, и часто тестируются в стандартизированных средах моделирования, таких как Gymnasium (ранее OpenAI Gym). Для улучшения согласования модели с предпочтениями человека в этой области также приобретают все большее значение такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF). Прогресс в RL постоянно стимулируется такими организациями, как DeepMind, и академическими конференциями, такими как NeurIPS.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас
Ссылка скопирована в буфер обмена