Yolo 비전 선전
선전
지금 참여하기
용어집

심층 강화 학습

게임, 로봇 공학, 헬스케어 등에서 과제를 해결하기 위해 AI가 복잡한 행동을 학습하는 심층 강화 학습의 힘을 발견하십시오.

심층 강화 학습(DRL)은 머신러닝의 고급 하위 분야로 머신러닝(ML)의 고급 하위 분야로 의사 결정 프레임워크를 강화 학습과 강력한 인식 기능을 결합한 고급 하위 분야입니다. 기존의 강화 학습은 단순한 환경에서 행동을 최적화하기 위해 시행착오에 의존하는 반면, DRL은 은 다층 신경망을 통합하여 비디오 프레임이나 복잡한 센서 판독값과 같은 고차원적인 감각 데이터를 해석합니다. 이러한 통합을 통해 AI 에이전트가 동적이고 비동적인 환경에서 난해한 문제를 해결하기 위한 자율 주행부터 전략적 게임 플레이에 이르기까지 역동적이고 구조화되지 않은 환경의 난해한 문제를 해결하기 위해 학습할 수 있습니다.

심층 강화 학습의 메커니즘

DRL의 핵심은 에이전트와 환경 간의 상호 작용이며, 이는 종종 수학적으로 마르코프 결정 과정(MDP)으로 모델링됩니다. 모델이 학습되는 모델이 훈련되는 지도 학습과 달리 레이블이 지정된 데이터 세트에서 모델을 학습시키는 지도 학습과 달리, DRL 에이전트는 는 탐색을 통해 학습합니다. 현재 상태를 관찰하고, 조치를 취하고, 피드백 신호인 "보상"

복잡한 입력을 처리하기 위해 DRL은 다음을 사용합니다. 컨볼루션 신경망(CNN) 또는 기타 딥 아키텍처를 사용하여 특정 동작의 값을 근사화합니다. 다음과 같은 프로세스를 통해 역전파그라디언트 하강과 같은 프로세스를 통해 네트워크는 모델 가중치를 조정하여 시간 경과에 따른 누적 보상을 보상을 극대화합니다. 다음과 같은 알고리즘 딥 큐 네트워크(DQN ) 및 근사 정책 최적화(PPO) 와 같은 알고리즘은 이러한 학습 과정을 안정화하여 에이전트가 이전에 보지 못한 새로운 상황에 대한 학습을 일반화할 수 있습니다.

실제 애플리케이션

DRL의 다재다능함은 다양한 산업 분야에서 혁신적인 애플리케이션으로 이어졌습니다:

  • 첨단 로봇 공학: 다음과 같은 분야에서 로보틱스 분야의 AI, DRL은 기계가 복잡한 운동 기술을 습득할 수 있도록 복잡한 운동 기술을 습득할 수 있습니다. 예를 들어, 로봇은 물체를 조작하거나 고르지 않은 지형을 걷는 방법을 학습할 수 있습니다. 다음과 같은 물리 시뮬레이션 환경을 기반으로 움직임을 지속적으로 개선함으로써 로봇이 물체를 조작하거나 고르지 않은 지형을 걷는 법을 배울 수 있습니다. NVIDIA 아이작 심.
  • 자율 주행 시스템: 자율 주행 차량은 DRL을 활용하여 예측할 수 없는 교통 상황에서 예측할 수 없는 교통 상황에서 실시간으로 의사 결정을 내립니다. 이러한 시스템은 라이다와 카메라의 입력을 처리하여 안전한 주행 정책을 학습하고 차선 병합 및 교차로 탐색을 위한 주행 정책을 학습하며, 종종 컴퓨터 비전(CV)을 활용하여 컴퓨터 비전(CV)을 활용하여 시각적인 장면을 분석합니다.
  • 전략 게임: DRL은 다음과 같은 시스템으로 세계적인 명성을 얻었습니다. 딥마인드의 알파고가 인간 세계 챔피언을 물리쳤습니다. 이 에이전트는 시뮬레이션에서 수백만 가지의 잠재적 전략을 탐색하여 인간의 직관을 뛰어넘는 새로운 전술을 발견합니다. 직관.

국가 관찰자로서의 컴퓨터 비전 통합

많은 DRL 애플리케이션에서 '상태'는 시각적 정보를 나타냅니다. 고속 객체 감지 모델은 에이전트의 눈 역할을 할 수 있습니다. 에이전트의 눈이 되어 원시 픽셀을 정책 네트워크가 작동할 수 있는 구조화된 데이터로 변환합니다.

다음 예는 YOLO11 을 사용하여 상태 관찰을 추출하는 방법을 보여줍니다:

from ultralytics import YOLO

# Load YOLO11 to serve as the perception layer for a DRL agent
model = YOLO("yolo11n.pt")

# Simulate an observation from the environment (e.g., a robot's camera feed)
observation = "https://ultralytics.com/images/bus.jpg"

# Perform inference to extract the state (detected objects and locations)
results = model(observation)

# The detection count serves as a simple state feature for the agent's policy
print(f"State Observation: {len(results[0].boxes)} objects detected.")

DRL과 관련 개념의 구분

딥 강화 학습을 유사한 용어와 구별하여 딥 강화 학습의 고유한 위치를 이해하는 것이 도움이 됩니다. 이해하는 데 도움이 됩니다:

  • 강화 학습(RL): 표준 RL은 기본 개념이지만 대규모 상태 공간에서는 비실용적인 조회 테이블(예: Q 테이블)에 의존하는 경우가 많습니다. 비실용적인 경우가 많습니다. DRL은 이 문제를 해결하기 위해 딥 러닝을 사용하여 정책을 근사화함으로써 이 문제를 해결합니다. 이미지와 같은 복잡한 입력을 처리할 수 있습니다.
  • 인간 피드백을 통한 강화 학습(RLHF): DRL은 일반적으로 수학적으로 정의된 보상 함수(예: 게임의 포인트)에 최적화하는 반면, RLHF는 모델을 세분화하여 모델을 구체화합니다. 대규모 언어 모델(LLM)을 사용하여 인간의 주관적인 선호도를 사용하여 AI의 행동을 인간의 가치에 맞게 조정합니다.
  • 비지도 학습: 비지도 방식은 명시적인 피드백 없이 데이터에서 숨겨진 패턴을 찾습니다. 이와는 대조적으로 DRL은 목표 지향적입니다, 특정 목표를 향해 에이전트를 안내하는 보상 신호에 의해 구동됩니다.

도구 및 프레임워크

DRL 시스템을 개발하려면 강력한 소프트웨어 에코시스템이 필요합니다. 연구자들은 다음과 같은 프레임워크에 의존합니다. PyTorchTensorFlow 을 사용하여 기본 신경망을 구축할 수 있습니다. 이들은 종종 다음과 같은 표준 인터페이스 라이브러리와 결합됩니다. 알고리즘을 테스트하고 벤치마킹하기 위한 환경을 제공하는 알고리즘을 테스트하고 벤치마킹할 수 있는 환경을 제공합니다. 이러한 모델을 훈련하는 것은 계산 집약적인 작업이며, 종종 고성능 GPU가 필요합니다. 융합에 필요한 수백만 개의 시뮬레이션 단계를 처리하기 위해 고성능 GPU가 필요한 경우가 많습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기