Изучите глубокое обучение с подкреплением (DRL) и то, как оно сочетает в себе принятие решений с помощью ИИ и глубокое обучение. Научитесь использовать Ultralytics в качестве слоя восприятия уже сегодня.
Глубокое обучение с подкреплением (DRL) — это усовершенствованное подразделение искусственного интеллекта (ИИ), которое сочетает в себе возможности принятия решений обучения с подкреплением и восприятия глубокого обучения (DL). В то время как традиционное обучение с подкреплением полагается на табличные методы для сопоставления ситуаций с действиями, эти методы не справляются, когда среда сложна или визуальна. DRL преодолевает эту проблему, используя нейронные сети для интерпретации высокоразмерных входных данных, таких как видеокадры или показания датчиков, что позволяет машинам учиться эффективным стратегиям непосредственно из сырого опыта без явных инструкций со стороны человека.
В системе DRL агент ИИ взаимодействует с окружающей средой в дискретных временных интервалах. На каждом этапе агент наблюдает текущее «состояние», выбирает действие на основе политики и получает сигнал вознаграждения, указывающий на успех или неудачу этого действия. Основная цель — максимизировать совокупное вознаграждение с течением времени.
«Глубокий» компонент относится к использованию глубоких нейронных сетей для аппроксимации политики (стратегии действия) или функции ценности (оцениваемого будущего вознаграждения). Это позволяет агенту обрабатывать неструктурированные данные, используя компьютерное зрение (CV) для «видения» окружающей среды, как это делает человек. Эта возможность реализуется с помощью таких фреймворков, как PyTorch или TensorFlow, которые облегчают обучение этих сложных сетей.
DRL вышла за рамки теоретических исследований и перешла к практическим, высокоэффективным применениям в различных отраслях промышленности:
Для многих приложений DRL «состояние» является визуальным. Высокоскоростные модели действуют как глаза агента, преобразуя исходные изображения в структурированные данные, на основе которых может действовать сеть политик. Следующий пример иллюстрирует, как модель YOLO26 служит слоем восприятия для агента, извлекая наблюдения (например, количество препятствий) из окружающей среды.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")
Полезно отличать Deep Reinforcement Learning от схожих терминов, чтобы понять его уникальное положение в ИИ:
Разработчики, желающие управлять наборами данных, необходимыми для уровней восприятия систем DRL, могут использовать Ultralytics , которая упрощает процессы аннотирования и обучения в облаке . Кроме того, исследователи часто используют стандартизированные среды, такие как Gymnasium, для сравнения своих алгоритмов DRL с установленными базовыми показателями.