상담원이 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 강화 학습에 대해 알아보세요. 개념, 적용 사례 및 이점을 살펴보세요!
강화 학습(RL)은 지능형 에이전트가 시행착오를 통해 최적의 결정을 내리는 방법을 학습하는 머신 러닝(ML) 의 한 영역입니다. 다른 학습 패러다임과 달리 에이전트에게 어떤 행동을 취해야 하는지 알려주지 않습니다. 대신 환경과 상호 작용하고 보상 또는 페널티의 형태로 피드백을 받습니다. 에이전트의 기본 목표는 시간이 지남에 따라 누적 보상을 극대화하는 전략, 즉 정책을 학습하는 것입니다. 이 접근 방식은 행동 심리학에서 영감을 얻은 것으로, Sutton과 Barto의 기본 텍스트에 설명된 대로 순차적 의사 결정 문제를 해결하는 데 특히 강력합니다.
RL 프로세스는 몇 가지 주요 구성 요소를 포함하는 지속적인 피드백 루프로 모델링됩니다:
에이전트는 환경의 현재 상태를 관찰하고 행동을 수행한 후 다음 상태와 함께 보상을 받습니다. 이 사이클이 반복되고, 에이전트는 이러한 경험을 통해 장기적으로 더 높은 보상을 받을 수 있는 행동을 선호하도록 정책을 점차 개선합니다. 이 문제에 대한 공식적인 프레임워크는 종종 마르코프 의사 결정 프로세스(MDP)로 설명됩니다. 널리 사용되는 RL 알고리즘에는 Q-러닝과 정책 그라데이션이 있습니다.
RL은 다른 주요 머신 러닝 유형과 구별됩니다:
RL은 다양하고 복잡한 영역에서 괄목할 만한 성공을 거두었습니다:
강화 학습은 광범위한 인공 지능(AI) 환경에서 특히 자율 시스템을 만드는 데 있어 중요한 구성 요소입니다. Ultralytics와 같은 회사는 지도 학습을 사용하여 객체 감지 및 인스턴스 세분화와 같은 작업을 위한 Ultralytics YOLO와 같은 비전 AI 모델을 전문으로 하지만, 이러한 모델의 인식 기능은 RL 에이전트에게 필수적인 입력입니다.
예를 들어, 로봇은 주변 환경('상태')을 이해하기 위해 Ultralytics HUB를 통해 배포된 인식용 YOLO 모델을 사용할 수 있습니다. 그런 다음 RL 정책은 이 정보를 사용하여 다음 동작을 결정합니다. 인식을 위한 컴퓨터 비전(CV) 과 의사 결정을 위한 RL 간의 이러한 시너지 효과는 지능형 시스템을 구축하는 데 있어 기본이 됩니다. 이러한 시스템은 PyTorch 및 TensorFlow와 같은 프레임워크를 사용하여 개발되는 경우가 많으며 Gymnasium(이전의 OpenAI Gym)과 같은 표준화된 시뮬레이션 환경에서 자주 테스트됩니다. 인간의 선호도에 대한 모델 정렬을 개선하기 위해 인간 피드백을 통한 강화 학습(RLHF) 과 같은 기술도 이 분야에서 점점 더 중요해지고 있습니다. 딥마인드와 같은 조직과 NeurIPS와 같은 학술 컨퍼런스를 통해 RL의 발전이 지속적으로 이루어지고 있습니다.