Deep Reinforcement Learning
심층 강화 학습(DRL)과 이것이 AI 의사결정과 딥러닝을 어떻게 결합하는지 탐구해 보십시오. 오늘날 Ultralytics YOLO26를 인식 계층으로 사용하는 방법을 배우십시오.
Deep Reinforcement Learning (DRL) is an advanced subset of artificial intelligence (AI) that combines the decision-making capabilities of reinforcement learning with the perceptual power of deep learning (DL). While traditional reinforcement learning relies on tabular methods to map situations to actions, these methods struggle when the environment is complex or visual. DRL overcomes this by using neural networks to interpret high-dimensional input data, such as video frames or sensor readings, enabling machines to learn effective strategies directly from raw experience without explicit human instruction.
Link to this sectionDRL의 핵심 메커니즘#
DRL 시스템에서 AI 에이전트는 이산적인 시간 단계에서 환경과 상호작용합니다. 각 단계에서 에이전트는 현재 "상태"를 관찰하고, 정책에 기반하여 행동을 선택하며, 해당 행동의 성공 또는 실패를 나타내는 보상 신호를 받습니다. 주된 목표는 시간이 지남에 따라 누적 보상을 최대화하는 것입니다.
"심층(Deep)" 구성 요소는 정책(행동 전략)이나 가치 함수(미래 예상 보상)를 근사하기 위해 심층 신경망을 사용하는 것을 의미합니다. 이를 통해 에이전트는 컴퓨터 비전(CV)을 활용하여 인간처럼 환경을 "보고" 비정형 데이터를 처리할 수 있습니다. 이러한 능력은 PyTorch나 TensorFlow와 같은 프레임워크에 의해 뒷받침되며, 이러한 복잡한 네트워크의 학습을 용이하게 합니다.
Link to this section실제 애플리케이션 사례#
DRL은 이론적 연구를 넘어 다양한 산업 분야에서 실용적이고 영향력 있는 응용 사례로 발전했습니다:
- 고급 로봇 공학: 로봇 공학 분야의 AI에서 DRL은 기계가 하드 코딩하기 어려운 복잡한 운동 기술을 마스터할 수 있게 합니다. 로봇은 NVIDIA Isaac Sim과 같은 물리 엔진 내에서 움직임을 정교하게 다듬어 불규칙한 물체를 잡거나 고르지 않은 지형을 이동하는 방법을 학습할 수 있습니다. 이는 종종 물리적 하드웨어에 정책을 배포하기 전에 합성 데이터로 학습하는 과정을 포함합니다.
- 자율 주행: 자율 주행 차량은 예측 불가능한 교통 상황에서 실시간 의사결정을 내리기 위해 DRL을 활용합니다. 객체 탐지 모델이 보행자와 표지판을 식별하는 동안, DRL 알고리즘은 해당 정보를 활용하여 차선 변경, 교차로 주행, 속도 제어를 위한 안전한 주행 정책을 결정하며 안전에 필요한 추론 지연 시간을 효과적으로 관리합니다.
Link to this section상태 관찰자로서의 비전#
많은 DRL 응용 분야에서 "상태"는 시각적입니다. 고속 모델은 에이전트의 눈 역할을 하며, 정책 네트워크가 작용할 수 있도록 원시 이미지를 구조화된 데이터로 변환합니다. 다음 예시는 YOLO26 모델이 어떻게 에이전트의 지각 계층 역할을 하여 환경에서 관찰 결과(예: 장애물 수)를 추출하는지 보여줍니다.
from ultralytics import YOLO
# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")
# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Perform inference to extract the state (detected objects)
results = model(observation_frame)
# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")Link to this sectionDRL과 관련 개념의 구별#
AI 환경 내에서 고유한 위치를 이해하기 위해 심층 강화 학습을 유사한 용어와 구별하는 것이 도움이 됩니다:
- 강화 학습(RL): 표준 RL은 기초적인 개념이지만 일반적으로 대규모 상태 공간에서는 비실용적인 조회 테이블(Q-테이블 등)에 의존합니다. DRL은 심층 학습을 사용하여 함수를 근사함으로써 이를 해결하며, 이미지와 같은 복잡한 입력을 처리할 수 있게 합니다.
- 인간 피드백을 통한 강화 학습(RLHF): DRL은 일반적으로 수학적으로 정의된 보상 함수(예: 게임 점수)를 최적화하는 반면, RLHF는 거대 언어 모델(LLM)을 구체적으로 개선합니다. 이는 주관적인 인간의 선호도를 사용하여 AI 행동을 인간의 가치에 맞추는 기법으로, OpenAI와 같은 연구 그룹에 의해 대중화되었습니다.
- Unsupervised Learning: 비지도 학습 방식은 명시적인 피드백 없이 데이터에서 숨겨진 패턴을 찾습니다. 이와 대조적으로, DRL은 Sutton and Barto의 기본 문헌에서 논의된 바와 같이, 에이전트를 특정 목표로 적극적으로 유도하는 보상 신호에 의해 움직이는 목표 지향적 방식입니다.
DRL 시스템의 지각 계층에 필요한 데이터셋을 관리하려는 개발자는 주석 처리 및 클라우드 학습 워크플로우를 단순화하는 Ultralytics Platform을 활용할 수 있습니다. 또한 연구자들은 종종 Gymnasium과 같은 표준화된 환경을 사용하여 확립된 기준 대비 DRL 알고리즘의 성능을 벤치마킹합니다.






