Yolo 비전 선전
선전
지금 참여하기
용어집

심층 강화 학습

Explore how Deep Reinforcement Learning combines neural networks with reward-based logic. Learn to build DRL agents using [YOLO26](https://docs.ultralytics.com/models/yolo26/) for advanced perception.

딥 강화 학습(DRL)은 인공 지능(AI) 의 고급 하위 분야로 강화 학습의 의사 결정 능력과 딥 러닝(DL)의 인지 능력을 결합합니다. 기존 강화 학습은 상황을 행동으로 매핑하기 위해 표 기반 방법을 사용하지만, 환경이 복잡하거나 시각적일 경우 이러한 방법은 어려움을 겪습니다. DRL은 신경망을 활용해 비디오 프레임이나 센서 측정값 같은 고차원 입력 데이터를 해석함으로써 이 한계를 극복합니다. 이를 통해 기계는 명시적인 인간 지시 없이도 생생한 경험으로부터 직접 효과적인 전략을 학습할 수 있습니다.

DRL의 핵심 메커니즘

DRL 시스템에서 AI 에이전트는 이산 시간 단계별로 환경과 상호작용합니다. 각 단계에서 에이전트는 현재 "상태"를 관찰하고, 정책에 기반하여 행동을 선택하며, 해당 행동의 성공 또는 실패를 나타내는 보상 신호를 수신합니다. 주요 목표는 시간에 따른 누적 보상을 극대화하는 것입니다.

"딥" 구성 요소는 정책(행동 전략) 또는 가치 함수(추정된 미래 보상)를 근사화하기 위해 딥 뉴럴 네트워크를 사용하는 것을 의미합니다. 이를 통해 에이전트는 컴퓨터 비전(CV) 을 활용하여 인간과 유사하게 환경을 "인식"함으로써 비정형 데이터를 처리할 수 있습니다. 이러한 기능은 다음과 같은 프레임워크에 의해 구현됩니다. PyTorch 또는 TensorFlow과 같은 프레임워크에 의해 구동되며, 이러한 복잡한 네트워크의 훈련을 용이하게 합니다.

실제 애플리케이션

DRL은 이론적 연구를 넘어 다양한 산업 분야에서 실질적이고 영향력 있는 응용 분야로 확장해 왔습니다:

  • 고급 로봇공학: 로봇공학 분야의 인공지능에서 DRL은 기계가 하드코딩하기 어려운 복잡한 운동 기술을 습득하도록 합니다. 로봇은 NVIDIA Sim과 같은 물리 엔진 내에서 동작을 정교화함으로써 불규칙한 물체를 잡거나 고르지 않은 지형을 통과하는 법을 배울 수 있습니다. 이는 종종 합성 데이터로 훈련한 후 정책을 물리적 하드웨어에 배포하는 과정을 포함합니다.
  • 자율주행: 자율주행 차량은 예측 불가능한 교통 상황에서 실시간 의사결정을 내리기 위해 DRL을 활용합니다. 물체 탐지 모델이 보행자와 표지판을 식별하는 동안, DRL 알고리즘은 이 정보를 활용하여 차선 합류, 교차로 통과, 속도 제어에 대한 안전한 주행 정책을 결정함으로써 안전을 위해 필요한 추론 지연 시간을 효과적으로 관리합니다.

국가 관찰자로서의 비전

많은 DRL(딥 강화 학습) 응용 분야에서 "상태"는 시각적입니다. 고속 모델은 에이전트의 눈 역할을 하여 원시 영상을 정책 네트워크가 처리할 수 있는 구조화된 데이터로 변환합니다. 다음 예시는 YOLO26 모델이 에이전트의 인지 계층으로 기능하여 환경으로부터 관측값(예: 장애물 개수)을 추출하는 방식을 보여줍니다.

from ultralytics import YOLO

# Load YOLO26n to serve as the perception layer for a DRL agent
model = YOLO("yolo26n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects)
results = model(observation_frame)

# The detection count serves as a simplified state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL과 관련 개념의 구분

딥 강화 학습을 유사한 용어와 구별하여 딥 강화 학습의 고유한 위치를 이해하는 것이 도움이 됩니다. 이해하는 데 도움이 됩니다:

  • 강화 학습(RL): 표준 RL은 기초 개념이지만 일반적으로 Q-테이블과 같은 조회 테이블에 의존하며, 이는 대규모 상태 공간에서는 실용적이지 않습니다. DRL은 딥 러닝을 활용해 함수를 근사화함으로써 이 문제를 해결하며, 이를 통해 이미지 같은 복잡한 입력도 처리할 수 있습니다.
  • 인간 피드백 기반 강화 학습(RLHF): DRL이 일반적으로 수학적으로 정의된 보상 함수(예: 게임 내 점수)를 최적화하는 반면, RLHF는 주관적인 인간 선호도를 활용하여 모델—특히 대규모 언어 모델(LLM)—을 정교화함으로써 AI 행동을 인간 가치와 일치시킵니다. 이 기술은 OpenAI와 같은 연구 그룹에 의해 대중화되었습니다.
  • 비지도 학습: 비지도 학습 방법은 명시적인 피드백 없이 데이터 내 숨겨진 패턴을 탐색합니다. 반면 DRL은 목표 지향적이며, 서튼(Sutton)과 바토(Barto)의 기초 문헌에서 논의된 바와 같이, 에이전트를 특정 목표 방향으로 능동적으로 이끄는 보상 신호에 의해 주도됩니다.

DRL 시스템의 인식 계층에 필요한 데이터셋을 관리하려는 개발자는 주석 작업 및 클라우드 훈련 워크플로를 간소화하는 Ultralytics 활용할 수 있습니다. 또한 연구자들은 Gymnastics와 같은 표준화된 환경을 자주 사용하여 기존 기준선 대비 DRL 알고리즘을 벤치마킹합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기