용어집

강화 학습

상담원이 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 강화 학습에 대해 알아보세요. 개념, 적용 사례 및 이점을 살펴보세요!

강화 학습(RL)은 지능형 에이전트가 시행착오를 통해 최적의 결정을 내리는 방법을 학습하는 머신 러닝(ML) 의 한 영역입니다. 다른 학습 패러다임과 달리 에이전트에게 어떤 행동을 취해야 하는지 알려주지 않습니다. 대신 환경과 상호 작용하고 보상 또는 페널티의 형태로 피드백을 받습니다. 에이전트의 기본 목표는 시간이 지남에 따라 누적 보상을 극대화하는 전략, 즉 정책을 학습하는 것입니다. 이 접근 방식은 행동 심리학에서 영감을 얻은 것으로, Sutton과 Barto의 기본 텍스트에 설명된 대로 순차적 의사 결정 문제를 해결하는 데 특히 강력합니다.

강화 학습의 작동 원리

RL 프로세스는 몇 가지 주요 구성 요소를 포함하는 지속적인 피드백 루프로 모델링됩니다:

  • 에이전트: 에이전트: 로봇이나 게임 플레이 프로그램과 같은 학습자이자 의사 결정자입니다.
  • 환경: 환경: 상담원이 상호작용하는 외부 세계입니다.
  • 상태: 특정 시점의 환경 스냅샷으로, 상담원에게 결정을 내리는 데 필요한 정보를 제공합니다.
  • 동작: 작업: 상담원이 일련의 가능한 옵션 중에서 선택한 작업입니다.
  • 보상: 보상: 각 작업 후 환경이 상담원에게 보내는 수치 신호로, 해당 작업이 얼마나 바람직한지를 나타냅니다.

에이전트는 환경의 현재 상태를 관찰하고 행동을 수행한 후 다음 상태와 함께 보상을 받습니다. 이 사이클이 반복되고, 에이전트는 이러한 경험을 통해 장기적으로 더 높은 보상을 받을 수 있는 행동을 선호하도록 정책을 점차 개선합니다. 이 문제에 대한 공식적인 프레임워크는 종종 마르코프 의사 결정 프로세스(MDP)로 설명됩니다. 널리 사용되는 RL 알고리즘에는 Q-러닝과 정책 그라데이션이 있습니다.

다른 학습 패러다임과의 비교

RL은 다른 주요 머신 러닝 유형과 구별됩니다:

  • 지도 학습: 지도 학습에서는 모델이 정답으로 완전히 레이블이 지정된 데이터 세트에서 학습합니다. 예를 들어, 이미지 분류 모델은 명시적인 레이블이 있는 이미지에 대해 학습합니다. 이와는 대조적으로 RL은 각 단계에서 최선의 행동이 무엇인지에 대한 명시적인 감독 없이 보상 신호로부터 학습합니다. 지도 학습과 비지도 학습에 대한 자세한 비교를 살펴볼 수 있습니다.
  • 비지도 학습: 이 패러다임은 레이블이 없는 데이터에서 숨겨진 패턴이나 구조를 찾는 것을 포함합니다. 보상을 최대화하기 위한 의사 결정이 아니라 K-평균 클러스터링 사용과 같은 데이터 탐색이 목표입니다.
  • 심층 강화 학습(DRL): DRL은 다른 패러다임이 아니라 심층 신경망을 사용하여 복잡하고 고차원적인 상태 및 동작 공간을 처리하는 고급 형태의 RL입니다. 이를 통해 RL은 자율 주행 차량용 카메라의 원시 픽셀 데이터 처리와 같이 이전에는 다루기 힘들다고 여겨졌던 문제까지 확장할 수 있습니다.

실제 애플리케이션

RL은 다양하고 복잡한 영역에서 괄목할 만한 성공을 거두었습니다:

  • 게임 플레이: RL 에이전트는 복잡한 게임에서 초인적인 성능을 발휘합니다. 대표적인 예로 세계 최고의 바둑 기사들을 이기는 방법을 학습한 딥마인드의 알파고를 들 수 있습니다. 또 다른 예로는 에이전트가 복잡한 팀 전략을 학습한 OpenAI의 도타 2를 들 수 있습니다.
  • 로봇 공학: RL은 로봇이 물체 조작, 조립, 이동과 같은 복잡한 작업을 수행하도록 훈련하는 데 사용됩니다. 로봇은 명시적으로 프로그래밍하는 대신 시뮬레이션 또는 실제 환경에서 성공적인 시도에 대한 보상을 받음으로써 걷거나 물체를 잡는 방법을 배울 수 있습니다. 이는 버클리 인공 지능 연구(BAIR) 연구소와 같은 기관의 핵심 연구 분야입니다.
  • 리소스 관리: 도시의 교통 흐름 관리, 에너지 그리드의 부하 균형 조정, 화학 반응 최적화 등 복잡한 시스템에서 운영을 최적화합니다.
  • 추천 시스템: RL은 사용자에게 추천되는 항목의 순서를 최적화하여 즉각적인 클릭이 아닌 장기적인 참여와 만족도를 극대화하는 데 사용할 수 있습니다.

AI 생태계에서의 관련성

강화 학습은 광범위한 인공 지능(AI) 환경에서 특히 자율 시스템을 만드는 데 있어 중요한 구성 요소입니다. Ultralytics와 같은 회사는 지도 학습을 사용하여 객체 감지인스턴스 세분화와 같은 작업을 위한 Ultralytics YOLO와 같은 비전 AI 모델을 전문으로 하지만, 이러한 모델의 인식 기능은 RL 에이전트에게 필수적인 입력입니다.

예를 들어, 로봇은 주변 환경('상태')을 이해하기 위해 Ultralytics HUB를 통해 배포된 인식용 YOLO 모델을 사용할 수 있습니다. 그런 다음 RL 정책은 이 정보를 사용하여 다음 동작을 결정합니다. 인식을 위한 컴퓨터 비전(CV) 과 의사 결정을 위한 RL 간의 이러한 시너지 효과는 지능형 시스템을 구축하는 데 있어 기본이 됩니다. 이러한 시스템은 PyTorchTensorFlow와 같은 프레임워크를 사용하여 개발되는 경우가 많으며 Gymnasium(이전의 OpenAI Gym)과 같은 표준화된 시뮬레이션 환경에서 자주 테스트됩니다. 인간의 선호도에 대한 모델 정렬을 개선하기 위해 인간 피드백을 통한 강화 학습(RLHF) 과 같은 기술도 이 분야에서 점점 더 중요해지고 있습니다. 딥마인드와 같은 조직과 NeurIPS와 같은 학술 컨퍼런스를 통해 RL의 발전이 지속적으로 이루어지고 있습니다.

울트라 애널리틱스 커뮤니티 가입

AI의 미래와 함께하세요. 글로벌 혁신가들과 연결, 협업, 성장하기

지금 가입하기
링크가 클립보드에 복사됨