YOLO Vision 2025를 놓치지 마세요!
2025년 9월 25일
10:00 — 18:00 BST
하이브리드 이벤트
Yolo Vision 2024
용어집

강화 학습

강화 학습을 통해 에이전트가 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 방법을 알아보세요. 개념, 응용 분야 및 이점을 살펴보세요!

강화 학습(RL)은 지능형 에이전트가 시행착오를 통해 최적의 결정을 내리는 방법을 학습하는 머신러닝(ML) 영역입니다. 다른 학습 패러다임과 달리 에이전트는 어떤 행동을 취해야 하는지 지시받지 않습니다. 대신 환경과 상호 작용하고 보상 또는 페널티 형태로 피드백을 받습니다. 에이전트의 근본적인 목표는 시간이 지남에 따라 누적 보상을 최대화하는 정책으로 알려진 전략을 학습하는 것입니다. 이 접근 방식은 행동 심리학에서 영감을 얻었으며 Sutton과 Barto의 기본 텍스트에 설명된 대로 순차적 의사 결정 문제를 해결하는 데 특히 강력합니다.

강화 학습 작동 방식

RL 과정은 다음과 같은 여러 주요 구성 요소를 포함하는 지속적인 피드백 루프로 모델링됩니다.

  • 에이전트(Agent): 로봇 또는 게임 플레이 프로그램과 같은 학습자 및 의사 결정자입니다.
  • 환경: 에이전트가 상호 작용하는 외부 세계입니다.
  • 상태: 특정 시점의 환경 스냅샷으로, 에이전트가 결정을 내리는 데 필요한 정보를 제공합니다.
  • 행동: 가능한 옵션 세트에서 에이전트가 선택한 움직임입니다.
  • 보상: 각 행동 후 환경에서 에이전트로 전송되는 숫자 신호로, 행동이 얼마나 바람직했는지 나타냅니다.

에이전트는 환경의 현재 상태를 관찰하고, 행동을 수행하고, 다음 상태와 함께 보상을 받습니다. 이 주기가 반복되며, 이러한 경험을 통해 에이전트는 장기적으로 더 높은 보상으로 이어지는 행동을 선호하도록 정책을 점진적으로 개선합니다. 이 문제에 대한 공식 프레임워크는 종종 마르코프 결정 프로세스(MDP)로 설명됩니다. 널리 사용되는 RL 알고리즘에는 Q-러닝 및 정책 경사가 있습니다.

다른 학습 패러다임과의 비교

RL은 다른 주요 유형의 머신 러닝과는 다릅니다.

실제 애플리케이션

RL은 다양한 복잡한 영역에서 놀라운 성공을 거두었습니다.

  • Game Playing: RL 에이전트는 복잡한 게임에서 초인적인 성능을 달성했습니다. 대표적인 예는 세계 최고의 바둑 플레이어를 꺾는 방법을 배운 DeepMind의 AlphaGo입니다. 또 다른 예는 에이전트가 복잡한 팀 전략을 배운 Dota 2에 대한 OpenAI의 작업입니다.
  • 로보틱스: RL은 로봇이 물체 조작, 조립 및 이동과 같은 복잡한 작업을 수행하도록 훈련하는 데 사용됩니다. 명시적으로 프로그래밍하는 대신 로봇은 시뮬레이션 또는 실제 환경에서 성공적인 시도에 대해 보상을 받음으로써 걷거나 물체를 잡는 방법을 학습할 수 있습니다. 이는 Berkeley Artificial Intelligence Research (BAIR) Lab과 같은 기관에서 주요 연구 분야입니다.
  • 리소스 관리: 도시의 교통 흐름 관리, 에너지 그리드의 부하 균형 조정, 화학 반응 최적화와 같은 복잡한 시스템에서 운영을 최적화합니다.
  • 추천 시스템: RL은 즉각적인 클릭뿐만 아니라 장기적인 참여와 만족도를 극대화하기 위해 사용자에게 추천되는 항목의 순서를 최적화하는 데 사용될 수 있습니다.

AI 생태계에서의 관련성

강화 학습은 광범위한 인공 지능(AI) 환경, 특히 자율 시스템을 만드는 데 중요한 구성 요소입니다. Ultralytics와 같은 회사는 지도 학습을 사용하여 객체 감지인스턴스 분할과 같은 작업에 Ultralytics YOLO와 같은 비전 AI 모델을 전문으로 하지만 이러한 모델의 인식 기능은 RL 에이전트의 필수 입력입니다.

예를 들어, 로봇은 Ultralytics HUB를 통해 배포된 YOLO 모델을 사용하여 주변 환경("상태")을 인식할 수 있습니다. 그런 다음 RL 정책은 이 정보를 사용하여 다음 움직임을 결정합니다. 인식을 위한 컴퓨터 비전(CV)과 의사 결정을 위한 RL 간의 이러한 시너지 효과는 지능형 시스템을 구축하는 데 기본적입니다. 이러한 시스템은 종종 PyTorchTensorFlow와 같은 프레임워크를 사용하여 개발되고 Gymnasium(이전의 OpenAI Gym)과 같은 표준화된 시뮬레이션 환경에서 자주 테스트됩니다. 인간 선호도에 대한 모델 정렬을 개선하기 위해 인간 피드백을 통한 강화 학습(RLHF)과 같은 기술도 이 분야에서 점점 더 중요해지고 있습니다. RL의 발전은 DeepMind와 같은 조직과 NeurIPS와 같은 학술 컨퍼런스에 의해 지속적으로 추진되고 있습니다.

Ultralytics 커뮤니티에 참여하세요

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기
클립보드에 링크가 복사되었습니다.