Встречай YOLO26: ИИ компьютерного зрения нового поколения.
Ultralytics
Назад к глоссарию Ultralytics

Deep Reinforcement Learning

Исследуй глубокое обучение с подкреплением (DRL) и то, как оно сочетает принятие решений ИИ с глубоким обучением. Научись использовать Ultralytics YOLO26 в качестве слоя восприятия уже сегодня.

Глубинное обучение с подкреплением (DRL) — это передовое подмножество искусственного интеллекта (ИИ), объединяющее возможности принятия решений обучения с подкреплением с перцептивной мощью глубинного обучения (DL). В то время как традиционное обучение с подкреплением полагается на табличные методы для сопоставления ситуаций с действиями, эти методы неэффективны в сложных или визуальных средах. DRL преодолевает это ограничение, используя нейронные сети для интерпретации высокоразмерных входных данных, таких как видеокадры или показания датчиков, позволяя машинам изучать эффективные стратегии непосредственно на основе сырого опыта без явных указаний со стороны человека.

Link to this sectionОсновной механизм DRL#

В системе DRL ИИ-агент взаимодействует со средой в дискретные моменты времени. На каждом шаге агент наблюдает текущее «состояние», выбирает действие на основе политики и получает сигнал вознаграждения, указывающий на успех или неудачу этого действия. Основная цель — максимизировать совокупное вознаграждение с течением времени.

Компонент «глубинный» относится к использованию глубоких нейронных сетей для аппроксимации политики (стратегии действий) или функции ценности (ожидаемого будущего вознаграждения). Это позволяет агенту обрабатывать неструктурированные данные, используя компьютерное зрение (CV), чтобы «видеть» среду подобно человеку. Эта возможность обеспечивается такими фреймворками, как PyTorch или TensorFlow, которые облегчают обучение этих сложных сетей.

Link to this sectionРеальные приложения#

DRL вышло за рамки теоретических исследований и применяется в практических задачах с высокой отдачей в различных отраслях:

  • Продвинутая робототехника: В области ИИ в робототехнике DRL позволяет машинам осваивать сложные моторные навыки, которые трудно запрограммировать вручную. Роботы могут научиться захватывать нестандартные объекты или перемещаться по неровной местности, совершенствуя свои движения в физических движках, таких как NVIDIA Isaac Sim. Это часто включает обучение на синтетических данных перед развертыванием политики на физическом оборудовании.
  • Автономное вождение: Автономные транспортные средства используют DRL для принятия решений в реальном времени в непредсказуемых дорожных ситуациях. В то время как модели обнаружения объектов идентифицируют пешеходов и дорожные знаки, алгоритмы DRL используют эту информацию для определения безопасных стратегий вождения при перестроении, навигации на перекрестках и контроле скорости, эффективно управляя задержкой вывода, необходимой для безопасности.

Link to this sectionЗрение как наблюдатель состояния#

Для многих приложений DRL «состояние» является визуальным. Высокоскоростные модели выступают в роли глаз агента, преобразуя сырые изображения в структурированные данные, с которыми может работать нейронная сеть политики. Следующий пример иллюстрирует, как модель YOLO26 служит уровнем восприятия для агента, извлекая наблюдения (например, количество препятствий) из окружающей среды.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

Link to this sectionОтличие DRL от связанных концепций#

Полезно различать глубинное обучение с подкреплением и похожие термины, чтобы понять его уникальное положение в ландшафте ИИ:

  • Обучение с подкреплением (RL): Стандартное RL — это фундаментальная концепция, которая обычно полагается на таблицы поиска (например, Q-таблицы), становящиеся непрактичными для больших пространств состояний. DRL решает эту проблему с помощью глубинного обучения для аппроксимации функций, что позволяет обрабатывать сложные входные данные, такие как изображения.
  • Обучение с подкреплением на основе отзывов людей (RLHF): В то время как DRL обычно оптимизирует математически определенную функцию вознаграждения (например, баллы в игре), RLHF дорабатывает модели — особенно большие языковые модели (LLMs) — используя субъективные человеческие предпочтения для согласования поведения ИИ с человеческими ценностями, что является методом, популяризированным такими исследовательскими группами, как OpenAI.
  • Обучение без учителя: методы обучения без учителя ищут скрытые закономерности в данных без явной обратной связи. В отличие от них, DRL ориентировано на результат и управляется сигналом вознаграждения, который активно направляет агента к конкретной цели, как обсуждается в фундаментальных текстах Саттона и Барто.

Разработчики, стремящиеся управлять наборами данных, необходимыми для уровней восприятия в системах DRL, могут использовать Ultralytics Platform, которая упрощает рабочие процессы аннотирования и облачного обучения. Кроме того, исследователи часто используют стандартизированные среды, такие как Gymnasium, для оценки своих алгоритмов DRL по сравнению с установленными базовыми показателями.

Explore solutions

Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше
Real-time AI that works with your team

ИИ в робототехнике

Делай свои машины умнее с помощью моделей Ultralytics YOLO. ИИ машинного зрения в робототехнике обеспечивает автономную навигацию, восприятие, отслеживание объектов и управление в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в логистике

Оптимизируй логистику с помощью моделей Ultralytics YOLO. Vision AI позволяет инспектировать посылки, сортировать их, отслеживать транспортные средства и контролировать безопасность на складе в реальном времени.

Узнать больше
Real-time AI that works with your team

ИИ в розничной торговле

Переосмысли ритейл с помощью моделей Ultralytics YOLO. Vision AI расширяет возможности отслеживания запасов, мониторинга полок, управления очередями и более глубокого понимания клиентов.

Узнать больше
Real-time AI that works with your team

ИИ в здравоохранении

Создавай решения для здравоохранения с помощью моделей Ultralytics YOLO. ИИ для зрения в медицине ускоряет анализ медицинских изображений, делает диагностику более точной, а мониторинг пациентов — эффективнее.

Узнать больше
Real-time AI that works with your team

ИИ в производстве

Оптимизируй производство с помощью моделей Ultralytics YOLO. Vision AI управляет контролем качества, обнаружением дефектов, соблюдением СИЗ и автоматизацией сборочных линий.

Узнать больше
Real-time AI that works with your operation

ИИ в автомобильной отрасли

Применяй компьютерное зрение в автомобильной отрасли с моделями Ultralytics YOLO. ИИ для зрения повышает безопасность дорожного движения, помогает водителю и способствует автоматизации транспортных средств для создания более «умных» дорог.

Узнать больше
Real-time AI tailored to your operation

ИИ в сельском хозяйстве

Внедряй ИИ в «умное» сельское хозяйство с помощью моделей Ultralytics YOLO. Оптимизируй мониторинг посевов, отслеживание скота и точное земледелие для получения более высоких и «умных» урожаев.

Узнать больше

Давай строить будущее ИИ вместе!

Начни свой путь в будущее машинного обучения