Deep Reinforcement Learning
Исследуй глубокое обучение с подкреплением (DRL) и то, как оно сочетает принятие решений ИИ с глубоким обучением. Научись использовать Ultralytics YOLO26 в качестве слоя восприятия уже сегодня.
Глубинное обучение с подкреплением (DRL) — это передовое подмножество искусственного интеллекта (ИИ), объединяющее возможности принятия решений обучения с подкреплением с перцептивной мощью глубинного обучения (DL). В то время как традиционное обучение с подкреплением полагается на табличные методы для сопоставления ситуаций с действиями, эти методы неэффективны в сложных или визуальных средах. DRL преодолевает это ограничение, используя нейронные сети для интерпретации высокоразмерных входных данных, таких как видеокадры или показания датчиков, позволяя машинам изучать эффективные стратегии непосредственно на основе сырого опыта без явных указаний со стороны человека.
Link to this sectionОсновной механизм DRL#
В системе DRL ИИ-агент взаимодействует со средой в дискретные моменты времени. На каждом шаге агент наблюдает текущее «состояние», выбирает действие на основе политики и получает сигнал вознаграждения, указывающий на успех или неудачу этого действия. Основная цель — максимизировать совокупное вознаграждение с течением времени.
Компонент «глубинный» относится к использованию глубоких нейронных сетей для аппроксимации политики (стратегии действий) или функции ценности (ожидаемого будущего вознаграждения). Это позволяет агенту обрабатывать неструктурированные данные, используя компьютерное зрение (CV), чтобы «видеть» среду подобно человеку. Эта возможность обеспечивается такими фреймворками, как PyTorch или TensorFlow, которые облегчают обучение этих сложных сетей.
Link to this sectionРеальные приложения#
DRL вышло за рамки теоретических исследований и применяется в практических задачах с высокой отдачей в различных отраслях:
- Продвинутая робототехника: В области ИИ в робототехнике DRL позволяет машинам осваивать сложные моторные навыки, которые трудно запрограммировать вручную. Роботы могут научиться захватывать нестандартные объекты или перемещаться по неровной местности, совершенствуя свои движения в физических движках, таких как NVIDIA Isaac Sim. Это часто включает обучение на синтетических данных перед развертыванием политики на физическом оборудовании.
- Автономное вождение: Автономные транспортные средства используют DRL для принятия решений в реальном времени в непредсказуемых дорожных ситуациях. В то время как модели обнаружения объектов идентифицируют пешеходов и дорожные знаки, алгоритмы DRL используют эту информацию для определения безопасных стратегий вождения при перестроении, навигации на перекрестках и контроле скорости, эффективно управляя задержкой вывода, необходимой для безопасности.
Link to this sectionЗрение как наблюдатель состояния#
Для многих приложений DRL «состояние» является визуальным. Высокоскоростные модели выступают в роли глаз агента, преобразуя сырые изображения в структурированные данные, с которыми может работать нейронная сеть политики. Следующий пример иллюстрирует, как модель YOLO26 служит уровнем восприятия для агента, извлекая наблюдения (например, количество препятствий) из окружающей среды.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")Link to this sectionОтличие DRL от связанных концепций#
Полезно различать глубинное обучение с подкреплением и похожие термины, чтобы понять его уникальное положение в ландшафте ИИ:
- Обучение с подкреплением (RL): Стандартное RL — это фундаментальная концепция, которая обычно полагается на таблицы поиска (например, Q-таблицы), становящиеся непрактичными для больших пространств состояний. DRL решает эту проблему с помощью глубинного обучения для аппроксимации функций, что позволяет обрабатывать сложные входные данные, такие как изображения.
- Обучение с подкреплением на основе отзывов людей (RLHF): В то время как DRL обычно оптимизирует математически определенную функцию вознаграждения (например, баллы в игре), RLHF дорабатывает модели — особенно большие языковые модели (LLMs) — используя субъективные человеческие предпочтения для согласования поведения ИИ с человеческими ценностями, что является методом, популяризированным такими исследовательскими группами, как OpenAI.
- Обучение без учителя: методы обучения без учителя ищут скрытые закономерности в данных без явной обратной связи. В отличие от них, DRL ориентировано на результат и управляется сигналом вознаграждения, который активно направляет агента к конкретной цели, как обсуждается в фундаментальных текстах Саттона и Барто.
Разработчики, стремящиеся управлять наборами данных, необходимыми для уровней восприятия в системах DRL, могут использовать Ultralytics Platform, которая упрощает рабочие процессы аннотирования и облачного обучения. Кроме того, исследователи часто используют стандартизированные среды, такие как Gymnasium, для оценки своих алгоритмов DRL по сравнению с установленными базовыми показателями.






