YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

심층 강화 학습

게임, 로봇 공학, 헬스케어 등에서 과제를 해결하기 위해 AI가 복잡한 행동을 학습하는 심층 강화 학습의 힘을 발견하십시오.

심층 강화 학습(DRL)은 강화 학습(RL)의 원리와 딥러닝(DL)의 강력한 기능을 결합한 머신러닝(ML)의 하위 분야입니다. 이를 통해 AI 에이전트는 복잡하고 고차원 환경에서 시행착오를 통해 최적의 의사 결정 전략을 학습할 수 있습니다. 심층 신경망을 사용하여 DRL 모델은 수동적인 특징 엔지니어링 없이 이미지의 픽셀 또는 센서 데이터와 같은 원시 감각 입력을 처리할 수 있습니다. 이를 통해 기존 RL 방법으로는 해결할 수 없었던 문제에 대처할 수 있습니다.

심층 강화 학습 작동 방식

일반적인 DRL 설정에서 에이전트는 일련의 시간 단계에 걸쳐 환경과 상호 작용합니다. 각 단계에서 에이전트는 환경의 상태를 관찰하고, 행동을 취하고, 보상 또는 벌칙을 받습니다. 목표는 시간이 지남에 따라 총 누적 보상을 최대화하는 정책(행동 선택 전략)을 학습하는 것입니다. DRL의 '딥' 부분은 딥 신경망을 사용하여 정책 자체 또는 상태 또는 행동의 바람직함을 추정하는 값 함수를 근사화하는 데서 비롯됩니다. 이 네트워크는 경사 하강법과 같은 알고리즘을 사용하여 수신된 보상을 기반으로 모델 가중치를 조정하여 학습됩니다. 이 전체 프로세스는 순차적 의사 결정을 모델링하기 위한 수학적 기반을 제공하는 마르코프 결정 프로세스(MDP)를 사용하여 공식화됩니다.

다른 개념과의 차이점

DRL을 관련 용어와 구별하는 것이 중요합니다.

  • 강화 학습(RL): DRL은 현대적이고 발전된 형태의 RL입니다. 기존 RL은 상태를 행동에 매핑하기 위해 테이블이나 선형 함수에 의존하는 경우가 많지만 큰 상태 공간(예: 화면의 가능한 모든 픽셀 조합)에서는 어려움을 겪습니다. DRL은 심층 신경망을 강력한 함수 근사기로 사용하여 이러한 제한을 극복합니다.
  • 딥러닝 (DL): DL은 DRL이 복잡한 입력을 처리할 수 있도록 지원하는 기술입니다. DL은 레이블이 지정된 데이터 세트에서 모델이 학습하는 지도 학습과 가장 일반적으로 관련되어 있지만, DRL은 희소한 보상 피드백에서 학습하므로 최적화 및 제어 작업에 적합합니다.
  • 지도 학습(Supervised Learning): 이 학습 패러다임은 예측을 수행하도록 모델을 훈련하기 위해 레이블링된 데이터 세트가 필요합니다. 이와는 대조적으로 심층 강화 학습(DRL)은 레이블링된 데이터를 필요로 하지 않고, 대신 보상 신호에 따라 환경과의 상호 작용을 통해 자체 데이터를 생성합니다. 따라서 레이블링된 데이터를 구하기 어렵거나 사용할 수 없는 문제에 매우 효과적입니다.

실제 애플리케이션

DRL은 다양한 복잡한 영역에서 획기적인 발전을 이루었습니다.

  • 게임 플레이: 가장 유명한 예 중 하나는 세계 최고의 바둑 기사를 꺾은 DeepMind의 AlphaGo입니다. DRL 에이전트는 보드의 시각적 상태를 사용하여 전략적 결정을 내리고 수백만 게임을 스스로 플레이하여 학습했습니다. 마찬가지로 OpenAI Five는 복잡한 비디오 게임 Dota 2를 초인적인 수준으로 플레이하는 방법을 배웠습니다.
  • 로보틱스: DRL은 로봇이 물체 조작, 이동, 조립과 같은 복잡한 작업을 수행하도록 훈련하는 데 사용됩니다. 예를 들어 로봇은 카메라에서 입력을 직접 처리하고 성공적인 파악에 대해 긍정적인 보상을 받음으로써 익숙하지 않은 물체를 집어 올리는 방법을 학습할 수 있으며, 이는 로보틱스에서 AI의 역할에 대한 논의에서 탐구된 주제입니다.
  • 자율 주행 차량: DRL은 자율 주행 자동차의 AI에 대한 기사에 자세히 설명된 바와 같이 동적 트래픽 시나리오에서 탐색, 경로 계획 및 의사 결정을 위한 정교한 제어 정책을 개발하는 데 도움이 됩니다.
  • 리소스 관리: DRL은 에너지 그리드, 교통 신호 제어 및 화학 반응 최적화와 같은 복잡한 시스템을 최적화할 수 있습니다. 한 예로 DRL을 사용하여 스마트 시티의 교통 흐름을 관리하는 것을 들 수 있습니다.
  • 추천 시스템: DRL은 장기적인 참여 또는 만족도를 극대화하기 위해 사용자에게 표시되는 추천 순서를 최적화할 수 있습니다.
  • 헬스케어: DRL은 환자 상태에 따라 최적의 치료 정책 및 약물 용량을 발견하기 위해 연구되고 있으며, 이는 더 넓은 범위의 헬스케어 AI 분야에 기여합니다.

AI 생태계에서의 관련성

심층 강화 학습은 AI 연구의 최전선에 있으며, 기계 자율성의 경계를 넓히고 있습니다. Ultralytics와 같은 회사는 주로 객체 감지이미지 분할과 같은 작업을 위해 Ultralytics YOLO와 같은 최첨단 비전 모델에 중점을 두지만, 이러한 인식 시스템의 출력은 종종 DRL 에이전트의 중요한 입력입니다. 예를 들어 로봇은 Ultralytics HUB를 통해 배포된 Ultralytics YOLO 모델을 사용하여 DRL 정책이 다음 작업을 결정하기 전에 환경(상태 표현)을 인식할 수 있습니다. DRL을 이해하면 고급 인식이 더 광범위한 자율 시스템에 어떻게 적합한지에 대한 맥락을 제공합니다. 이러한 개발은 종종 PyTorch(PyTorch 홈페이지) 및 TensorFlow(TensorFlow 홈페이지)와 같은 프레임워크에 의해 촉진되고 Gymnasium과 같은 시뮬레이션 환경에서 테스트됩니다. DeepMind와 같은 주요 연구 기관과 인공 지능 발전 협회(AAAI)와 같은 학술 기관은 이 흥미로운 분야에서 지속적으로 발전을 주도하고 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.