강화 학습을 통해 에이전트가 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 방법을 알아보세요. 개념, 응용 분야 및 이점을 살펴보세요!
강화 학습(RL)은 지능형 에이전트가 시행착오를 통해 최적의 결정을 내리는 방법을 학습하는 머신러닝(ML) 영역입니다. 다른 학습 패러다임과 달리 에이전트는 어떤 행동을 취해야 하는지 지시받지 않습니다. 대신 환경과 상호 작용하고 보상 또는 페널티 형태로 피드백을 받습니다. 에이전트의 근본적인 목표는 시간이 지남에 따라 누적 보상을 최대화하는 정책으로 알려진 전략을 학습하는 것입니다. 이 접근 방식은 행동 심리학에서 영감을 얻었으며 Sutton과 Barto의 기본 텍스트에 설명된 대로 순차적 의사 결정 문제를 해결하는 데 특히 강력합니다.
RL 과정은 다음과 같은 여러 주요 구성 요소를 포함하는 지속적인 피드백 루프로 모델링됩니다.
에이전트는 환경의 현재 상태를 관찰하고, 행동을 수행하고, 다음 상태와 함께 보상을 받습니다. 이 주기가 반복되며, 이러한 경험을 통해 에이전트는 장기적으로 더 높은 보상으로 이어지는 행동을 선호하도록 정책을 점진적으로 개선합니다. 이 문제에 대한 공식 프레임워크는 종종 마르코프 결정 프로세스(MDP)로 설명됩니다. 널리 사용되는 RL 알고리즘에는 Q-러닝 및 정책 경사가 있습니다.
RL은 다른 주요 유형의 머신 러닝과는 다릅니다.
RL은 다양한 복잡한 영역에서 놀라운 성공을 거두었습니다.
강화 학습은 광범위한 인공 지능(AI) 환경, 특히 자율 시스템을 만드는 데 중요한 구성 요소입니다. Ultralytics와 같은 회사는 지도 학습을 사용하여 객체 감지 및 인스턴스 분할과 같은 작업에 Ultralytics YOLO와 같은 비전 AI 모델을 전문으로 하지만 이러한 모델의 인식 기능은 RL 에이전트의 필수 입력입니다.
예를 들어, 로봇은 Ultralytics HUB를 통해 배포된 YOLO 모델을 사용하여 주변 환경("상태")을 인식할 수 있습니다. 그런 다음 RL 정책은 이 정보를 사용하여 다음 움직임을 결정합니다. 인식을 위한 컴퓨터 비전(CV)과 의사 결정을 위한 RL 간의 이러한 시너지 효과는 지능형 시스템을 구축하는 데 기본적입니다. 이러한 시스템은 종종 PyTorch 및 TensorFlow와 같은 프레임워크를 사용하여 개발되고 Gymnasium(이전의 OpenAI Gym)과 같은 표준화된 시뮬레이션 환경에서 자주 테스트됩니다. 인간 선호도에 대한 모델 정렬을 개선하기 위해 인간 피드백을 통한 강화 학습(RLHF)과 같은 기술도 이 분야에서 점점 더 중요해지고 있습니다. RL의 발전은 DeepMind와 같은 조직과 NeurIPS와 같은 학술 컨퍼런스에 의해 지속적으로 추진되고 있습니다.