Откройте для себя обучение с подкреплением, где агенты оптимизируют действия методом проб и ошибок, чтобы максимизировать вознаграждения. Изучите концепции, приложения и преимущества!
Обучение с подкреплением (RL) — это область машинного обучения (ML), в которой интеллектуальный агент учится принимать оптимальные решения методом проб и ошибок. В отличие от других парадигм обучения, агенту не говорят, какие действия предпринимать. Вместо этого он взаимодействует со средой и получает обратную связь в виде вознаграждений или штрафов. Основная цель агента — выработать стратегию, известную как политика, которая максимизирует его совокупное вознаграждение с течением времени. Этот подход вдохновлен поведенческой психологией и особенно эффективен для решения задач последовательного принятия решений, как указано в основополагающем тексте Саттона и Барто.
Процесс RL моделируется как непрерывный цикл обратной связи, включающий несколько ключевых компонентов:
Агент наблюдает за текущим состоянием среды, выполняет действие и получает вознаграждение вместе со следующим состоянием. Этот цикл повторяется, и благодаря этому опыту агент постепенно совершенствует свою политику, чтобы отдавать предпочтение действиям, которые приводят к более высоким долгосрочным вознаграждениям. Формальная структура для этой проблемы часто описывается марковским процессом принятия решений (MDP). Популярные алгоритмы RL включают Q-обучение и градиенты политики.
RL отличается от других основных типов машинного обучения:
RL добилась значительных успехов в различных сложных областях:
Обучение с подкреплением является важным компонентом более широкой области искусственного интеллекта (ИИ), особенно для создания автономных систем. В то время как такие компании, как Ultralytics, специализируются на моделях компьютерного зрения, таких как Ultralytics YOLO, для таких задач, как обнаружение объектов и сегментация экземпляров с использованием обучения с учителем, возможности восприятия этих моделей являются важными входными данными для агентов RL.
Например, робот может использовать модель YOLO для восприятия, развернутую через Ultralytics HUB, чтобы понимать свое окружение («состояние»). Затем политика RL использует эту информацию для принятия решения о следующем шаге. Эта синергия между компьютерным зрением (CV) для восприятия и RL для принятия решений имеет основополагающее значение для построения интеллектуальных систем. Эти системы часто разрабатываются с использованием таких фреймворков, как PyTorch и TensorFlow, и часто тестируются в стандартизированных средах моделирования, таких как Gymnasium (ранее OpenAI Gym). Для улучшения согласования модели с предпочтениями человека в этой области также приобретают все большее значение такие методы, как обучение с подкреплением на основе обратной связи от человека (RLHF). Прогресс в RL постоянно стимулируется такими организациями, как DeepMind, и академическими конференциями, такими как NeurIPS.