용어집

심층 강화 학습

AI가 복잡한 행동을 학습하여 게임, 로봇 공학, 의료 등의 문제를 해결하는 심층 강화 학습의 힘을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

심층 강화 학습(DRL)은 강화 학습(RL) 의 원리와 딥 러닝(DL)의 강력한 성능을 결합한 것입니다. 소프트웨어 에이전트가 시행착오를 통해 복잡하고 고차원적인 환경 내에서 최적의 행동을 학습할 수 있게 해줍니다. 카메라의 원시 픽셀 데이터와 같이 방대한 상태 공간에서 어려움을 겪을 수 있는 기존 RL과 달리, DRL은 심층 신경망(NN) 을 활용하여 가치 함수(미래 보상 예측) 또는 정책(상태와 행동 매핑)과 같이 학습에 필요한 함수를 근사화합니다. 이를 통해 DRL 에이전트는 이미지나 센서 판독값과 같은 복잡한 감각 입력으로부터 직접 학습하여 이전에는 해결하기 어려웠던 문제를 해결할 수 있습니다.

심층 강화 학습의 작동 원리

DRL의 핵심은 에이전트가 개별적인 시간 단계에 걸쳐 환경과 상호 작용하는 것입니다. 프로세스는 일반적으로 다음과 같이 전개됩니다:

  1. 관찰: 에이전트가 환경의 현재 상태를 관찰합니다. DRL에서 이 상태는 컨볼루션 신경망(CNN)으로 처리된 이미지 픽셀과 같은 고차원 데이터로 표현할 수 있습니다.
  2. 작업 선택: 관찰된 상태를 기반으로 에이전트는 심층 신경망으로 표현되는 정책을 사용하여 작업을 선택합니다.
  3. 상호 작용: 에이전트가 선택한 작업을 수행하여 환경이 새로운 상태로 전환되도록 유도합니다.
  4. 피드백(보상): 환경은 이전 상태의 동작이 얼마나 좋았는지 또는 나빴는지를 나타내는 스칼라 보상 신호를 제공합니다.
  5. 학습: 에이전트는 보상 신호와 상태 전환을 사용하여 역전파경사 하강과 같은 알고리즘을 통해 신경망(정책 또는 가치 함수)을 업데이트합니다. 목표는 시간에 따른 미래 누적 보상을 최대화하기 위해 네트워크의 가중치를 조정하는 것입니다. 이 학습 루프가 반복되면서 에이전트는 의사 결정 전략을 점진적으로 개선할 수 있습니다.

DRL의 주요 개념

DRL을 이해하려면 이제 딥러닝 기술을 사용하여 확장된 강화 학습의 몇 가지 핵심 아이디어에 익숙해져야 합니다:

  • 에이전트: 에이전트: 의사 결정을 내리기 위해 학습하는 알고리즘 또는 모델입니다.
  • 환경: 에이전트가 상호작용하는 세계 또는 시스템(예: 게임 시뮬레이션, 실제 로봇의 주변 환경)입니다. 연구를 위한 표준화된 환경은 종종 Gymnasium(이전의 OpenAI Gym)과 같은 툴킷을 통해 제공됩니다.
  • 상태: 특정 시점의 환경 표현. DRL은 이미지나 센서 어레이와 같이 대량의 데이터로 표현되는 상태를 처리하는 데 탁월합니다.
  • 액션: 액션: 환경에 영향을 미치는 상담원의 결정입니다.
  • 보상: 보상: 어떤 상태에서 취한 조치의 즉각적인 바람직성을 나타내는 환경의 수치적 피드백입니다.
  • 정책: 에이전트의 전략으로, 상태를 작업에 매핑합니다. DRL에서는 일반적으로 심층 신경망입니다.
  • 가치 함수: 주어진 상태 또는 상태-행동 쌍에서 예상되는 장기 누적 보상을 추정합니다. 이는 종종 심층 신경망으로 표현되기도 합니다.
  • 탐색 대 착취: 에이전트가 더 나은 전략을 발견하기 위해 새로운 행동을 시도하는 것(탐색)과 알려진 좋은 행동을 고수하는 것(착취)의 균형을 맞춰야 하는 근본적인 상충 관계입니다.

DRL과 다른 머신 러닝 패러다임 비교

DRL은 다른 주요 머신 러닝(ML) 접근 방식과 크게 다릅니다:

  • 지도 학습: 레이블이 지정된 예제(입력-출력 쌍)가 포함된 데이터 세트에서 학습합니다. 다음과 같은 모델을 사용하여 이미지 분류 또는 객체 감지와 같은 작업을 수행할 수 있습니다. Ultralytics YOLO 와 같은 모델을 사용하는 작업이 이 범주에 속합니다. 반면, DRL은 각 상태에 대한 명시적인 정답 없이 보상 신호로부터 학습합니다.
  • 비지도 학습: 레이블이 없는 데이터에서 패턴과 구조를 학습합니다(예: 클러스터링). DRL은 상호 작용과 피드백을 통해 목표 지향적인 행동을 학습하는 데 중점을 둡니다.
  • 강화 학습(RL): DRL은 심층 신경망을 사용하는 특정 유형의 RL입니다. 기존 RL은 종종 테이블(Q 테이블)과 같은 단순한 표현을 사용하는데, 이는 매우 크거나 연속적인 상태 공간을 가진 문제에는 적용하기 어렵지만 DRL이 빛을 발하는 분야입니다.

실제 애플리케이션

DRL은 다양하고 복잡한 영역에서 혁신을 주도해 왔습니다:

AI 생태계에서의 관련성

심층 강화 학습은 기계의 자율성과 의사 결정의 경계를 넓히는 인공 지능(AI) 연구의 중요한 영역입니다. Ultralytics 같은 회사는 주로 지도 학습을 사용한 물체 감지이미지 분할과 같은 작업을 위해 Ultralytics YOLO 같은 최첨단 비전 모델에 중점을 두지만, 이러한 인식 시스템의 출력은 종종 DRL 에이전트에게 중요한 입력이 됩니다. 예를 들어, 로봇은 DRL 정책에 따라 다음 작업을 결정하기 전에 Ultralytics HUB를 통해 배포된 Ultralytics YOLO 모델을 사용하여 환경(상태 표현)을 인식할 수 있습니다. DRL을 이해하면 고급 인식이 더 광범위한 자율 시스템과 AI 커뮤니티가 Gymnasium과 같은 툴킷 및 다음과 같은 프레임워크를 사용하여 해결하는 복잡한 제어 문제에 어떻게 적용되는지에 대한 컨텍스트를 얻을 수 있습니다. PyTorchPyTorch 홈페이지) 및 TensorFlowTensorFlow 홈페이지). 딥마인드와 같은 연구 기관과 인공 지능 발전 협회(AAAI) 와 같은 학술 단체는 이 흥미로운 분야의 발전을 계속 주도하고 있습니다.

모두 보기