용어집

심층 강화 학습

AI가 복잡한 행동을 학습하여 게임, 로봇 공학, 의료 등의 문제를 해결하는 심층 강화 학습의 힘을 알아보세요.

심층 강화 학습(DRL)은 강화 학습(RL) 의 원리와 딥 러닝(DL)의 강력한 성능을 결합한 것입니다. 소프트웨어 에이전트가 시행착오를 통해 복잡하고 고차원적인 환경 내에서 최적의 행동을 학습할 수 있게 해줍니다. 카메라의 원시 픽셀 데이터와 같이 방대한 상태 공간에서 어려움을 겪을 수 있는 기존 RL과 달리, DRL은 심층 신경망(NN) 을 활용하여 가치 함수(미래 보상 예측) 또는 정책(상태와 행동 매핑)과 같이 학습에 필요한 함수를 근사화합니다. 이를 통해 DRL 에이전트는 이미지나 센서 판독값과 같은 복잡한 감각 입력으로부터 직접 학습하여 이전에는 해결하기 어려웠던 문제를 해결할 수 있습니다.

심층 강화 학습의 작동 원리

DRL의 핵심은 에이전트가 개별적인 시간 단계에 걸쳐 환경과 상호 작용하는 것입니다. 프로세스는 일반적으로 다음과 같이 전개됩니다:

관찰: 에이전트가 환경의 현재 상태를 관찰합니다. DRL에서 이 상태는 컨볼루션 신경망(CNN)으로 처리된 이미지 픽셀과 같은 고차원 데이터로 표현할 수 있습니다.
작업 선택: 관찰된 상태를 기반으로 에이전트는 심층 신경망으로 표현되는 정책을 사용하여 작업을 선택합니다.
상호 작용: 에이전트가 선택한 작업을 수행하여 환경이 새로운 상태로 전환되도록 유도합니다.
피드백(보상): 환경은 이전 상태의 동작이 얼마나 좋았는지 또는 나빴는지를 나타내는 스칼라 보상 신호를 제공합니다.
학습: 에이전트는 보상 신호와 상태 전환을 사용하여 역전파 및 경사 하강과 같은 알고리즘을 통해 신경망(정책 또는 가치 함수)을 업데이트합니다. 목표는 시간에 따른 미래 누적 보상을 최대화하기 위해 네트워크의 가중치를 조정하는 것입니다. 이 학습 루프가 반복되면서 에이전트는 의사 결정 전략을 점진적으로 개선할 수 있습니다.

DRL의 주요 개념

DRL을 이해하려면 이제 딥러닝 기술을 사용하여 확장된 강화 학습의 몇 가지 핵심 아이디어에 익숙해져야 합니다:

에이전트: 에이전트: 의사 결정을 내리기 위해 학습하는 알고리즘 또는 모델입니다.
환경: 에이전트가 상호작용하는 세계 또는 시스템(예: 게임 시뮬레이션, 실제 로봇의 주변 환경)입니다. 연구를 위한 표준화된 환경은 종종 Gymnasium(이전의 OpenAI Gym)과 같은 툴킷을 통해 제공됩니다.
상태: 특정 시점의 환경 표현. DRL은 이미지나 센서 어레이와 같이 대량의 데이터로 표현되는 상태를 처리하는 데 탁월합니다.
액션: 액션: 환경에 영향을 미치는 상담원의 결정입니다.
보상: 보상: 어떤 상태에서 취한 조치의 즉각적인 바람직성을 나타내는 환경의 수치적 피드백입니다.
정책: 에이전트의 전략으로, 상태를 작업에 매핑합니다. DRL에서는 일반적으로 심층 신경망입니다.
가치 함수: 주어진 상태 또는 상태-행동 쌍에서 예상되는 장기 누적 보상을 추정합니다. 이는 종종 심층 신경망으로 표현되기도 합니다.
탐색 대 착취: 에이전트가 더 나은 전략을 발견하기 위해 새로운 행동을 시도하는 것(탐색)과 알려진 좋은 행동을 고수하는 것(착취)의 균형을 맞춰야 하는 근본적인 상충 관계입니다.

DRL과 다른 머신 러닝 패러다임 비교

DRL은 다른 주요 머신 러닝(ML) 접근 방식과 크게 다릅니다:

지도 학습: 레이블이 지정된 예제(입력-출력 쌍)가 포함된 데이터 세트에서 학습합니다. 다음과 같은 모델을 사용하여 이미지 분류 또는 객체 감지와 같은 작업을 수행할 수 있습니다. Ultralytics YOLO 와 같은 모델을 사용하는 작업이 이 범주에 속합니다. 반면, DRL은 각 상태에 대한 명시적인 정답 없이 보상 신호로부터 학습합니다.
비지도 학습: 레이블이 없는 데이터에서 패턴과 구조를 학습합니다(예: 클러스터링). DRL은 상호 작용과 피드백을 통해 목표 지향적인 행동을 학습하는 데 중점을 둡니다.
강화 학습(RL): DRL은 심층 신경망을 사용하는 특정 유형의 RL입니다. 기존 RL은 종종 테이블(Q 테이블)과 같은 단순한 표현을 사용하는데, 이는 매우 크거나 연속적인 상태 공간을 가진 문제에는 적용하기 어렵지만 DRL이 빛을 발하는 분야입니다.

실제 애플리케이션

DRL은 다양하고 복잡한 영역에서 혁신을 주도해 왔습니다:

로봇 공학: 로봇이 물체 조작, 이동, 조립과 같은 복잡한 작업을 수행하도록 훈련하는 것으로, 카메라 입력이나 센서 데이터에서 직접 학습하는 경우가 많습니다. 로봇 공학에서 AI의 역할과 같은 리소스에서 이에 대해 자세히 알아보세요.
게임 플레이: 바둑(딥마인드의 알파고)과 다양한 비디오 게임(도타 2용 OpenAI 파이브)과 같은 복잡한 게임에서 초인적인 성능을 달성합니다.
자율주행 차량: 자율주행차의 AI에서 논의된 바와 같이 동적 교통 시나리오에서 내비게이션, 경로 계획 및 의사 결정을 위한 정교한 제어 정책을 개발합니다.
리소스 최적화: 에너지 그리드(재생 에너지 분야의 AI), 교통 신호 제어(교통 관리 분야의 AI), 화학 반응 최적화와 같은 복잡한 시스템을 관리합니다.
추천 시스템: 추천 시퀀스를 최적화하여 장기적인 사용자 참여도 또는 만족도를 극대화합니다.
헬스케어: 환자 상태와 결과에 따라 최적의 치료 정책이나 약물 용량을 발견하여 의료 분야의 AI와 같은 분야에 기여합니다.

AI 생태계에서의 관련성

심층 강화 학습은 기계의 자율성과 의사 결정의 경계를 넓히는 인공 지능(AI) 연구의 중요한 영역입니다. Ultralytics 같은 회사는 주로 지도 학습을 사용한 물체 감지 및 이미지 분할과 같은 작업을 위해 Ultralytics YOLO 같은 최첨단 비전 모델에 중점을 두지만, 이러한 인식 시스템의 출력은 종종 DRL 에이전트에게 중요한 입력이 됩니다. 예를 들어, 로봇은 DRL 정책에 따라 다음 작업을 결정하기 전에 Ultralytics HUB를 통해 배포된 Ultralytics YOLO 모델을 사용하여 환경(상태 표현)을 인식할 수 있습니다. DRL을 이해하면 고급 인식이 더 광범위한 자율 시스템과 AI 커뮤니티가 Gymnasium과 같은 툴킷 및 다음과 같은 프레임워크를 사용하여 해결하는 복잡한 제어 문제에 어떻게 적용되는지에 대한 컨텍스트를 얻을 수 있습니다. PyTorch PyTorch 홈페이지) 및 TensorFlow TensorFlow 홈페이지). 딥마인드와 같은 연구 기관과 인공 지능 발전 협회(AAAI) 와 같은 학술 단체는 이 흥미로운 분야의 발전을 계속 주도하고 있습니다.

심층 강화 학습

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

심층 강화 학습의 작동 원리

DRL의 주요 개념

DRL과 다른 머신 러닝 패러다임 비교

실제 애플리케이션

AI 생태계에서의 관련성

블로그 더 보기

Ultralytics 커뮤니티 가입하기

심층 강화 학습

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

심층 강화 학습의 작동 원리

DRL의 주요 개념

DRL과 다른 머신 러닝 패러다임 비교

실제 애플리케이션

AI 생태계에서의 관련성

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련