Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Глубокое обучение с подкреплением

Откройте для себя возможности глубокого обучения с подкреплением—где ИИ изучает сложные модели поведения для решения задач в играх, робототехнике, здравоохранении и многом другом.

Глубокое обучение с подкреплением (Deep Reinforcement Learning, DRL) - это передовая область Машинное обучение (ML), которое сочетает в себе основы принятия решений обучения с подкреплением и мощные возможностями глубокого обучения (ГОО). В то время как традиционное обучение с подкреплением опирается на метод проб и ошибок для оптимизации поведения в простых условиях, DRL объединяет многослойные нейронные сети для интерпретации высокоразмерных сенсорных данных, таких как видеокадры или сложные показания датчиков. Такая интеграция позволяет ИИ-агенту научиться сложным стратегиям решения сложных проблем в динамичных, неструктурированных средах, начиная от автономной навигации и заканчивая стратегической игрой. игры.

Механика глубокого обучения с подкреплением

В основе ДРЛ лежит взаимодействие между агентом и его окружением, часто моделируемое математически как Марковский процесс принятия решений (МПР). В отличие от контролируемого обучения, где модель обучается на наборе меченых данных с известными правильными ответами, агент DRL обучается путем исследования. Он наблюдает за текущим состоянием, предпринимает действие и получает сигнал обратной связи, известный как "вознаграждение".

Для обработки сложных входных данных в DRL используются сверточные нейронные сети (CNN) или другие глубокие архитектуры для аппроксимации ценности определенных действий. С помощью таких процессов, как обратное распространение и градиентный спуск, сеть настраивает свои весовые коэффициенты модели, чтобы максимизировать совокупное вознаграждение с течением времени со временем. Такие алгоритмы, как Глубокие Q-сети (DQN) и оптимизация проксимальной политики (PPO) помогают стабилизировать этот процесс обучения, позволяя агентам обобщать свое обучение на новые, невиданные ситуации.

Применение в реальном мире

Универсальность DRL привела к появлению новых приложений в различных отраслях промышленности:

  • Передовая робототехника: В области ИИ в робототехнике, ДРЛ позволяет машинам овладевать сложные двигательные навыки. Например, роботы могут научиться манипулировать предметами или ходить по неровной местности, постоянно совершенствуя свои движения на основе сред моделирования физики, таких как постоянно совершенствуя свои движения на основе сред моделирования физики, таких как NVIDIA Isaac Sim.
  • Автономные системы: Автономные транспортные средства используют DRL для принятия решения в реальном времени в условиях непредсказуемого трафика. Обрабатывая данные, поступающие от LiDAR и камер, эти системы учатся безопасному безопасному вождению для слияния полос и навигации по перекресткам, часто используя компьютерное зрение (КЗ) для анализа визуальной сцены.
  • Стратегические игры: ДРЛ достигла мировой известности, когда такие системы, как AlphaGo компании DeepMind победили чемпионов мира среди людей. Эти агенты исследуют миллионы потенциальных стратегий в симуляторах, открывая новые тактики, превосходящие человеческую интуицию.

Интеграция компьютерного зрения в качестве наблюдателя за состоянием

Для многих приложений DRL "состояние" представляет собой визуальную информацию. Высокоскоростные высокоскоростные модели обнаружения объектов могут служить глазами агента, преобразуя необработанные пиксели в структурированные данные, на которые может опираться сеть политик.

Следующий пример иллюстрирует, как YOLO11 может быть использован для извлечения наблюдений за состоянием агента DRL:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Отличие DRL от смежных концепций

Полезно отличать Deep Reinforcement Learning от схожих терминов, чтобы понять его уникальное положение в ИИ:

  • Обучение с подкреплением (RL): Стандартное RL является основополагающей концепцией, но часто опирается на таблицы поиска (например, Q-таблицы), которые становятся непрактичными для больших пространств состояний. DRL решает эту проблему, используя глубокого обучения для аппроксимации политик, что позволяет что позволяет ему обрабатывать сложные входные данные, такие как изображения.
  • Обучение с подкреплением на основе человеческой обратной связи (RLHF): В то время как DRL обычно оптимизируется для математически определенной функции вознаграждения (например, очки в игре), RLHF уточняет модели - в частности, . Большие языковые модели (БЯМ)- с использованием субъективных предпочтений человека, чтобы привести поведение ИИ в соответствие с человеческими ценностями.
  • Неподконтрольное обучение: Методы без контроля ищут скрытые закономерности в данных без явной обратной связи. В отличие от этого, DRL ориентирован на достижение цели, В основе лежит сигнал вознаграждения, который направляет агента к определенной цели.

Инструменты и фреймворки

Разработка систем DRL требует надежных программных экосистем. Исследователи полагаются на такие фреймворки, как PyTorch и TensorFlow для создания базовых нейронных сетей. Они часто сочетаются со стандартными интерфейсными библиотеками, такими как Gymnasium (ранее OpenAI Gym), которые предоставляют набор окружений для тестирования и бенчмаркинга алгоритмов. Обучение этих моделей требует больших вычислительных затрат, часто что часто требует использования высокопроизводительных графических процессоров для для обработки миллионов шагов моделирования, необходимых для сходимости.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас