Yolo 비전 선전
선전
지금 참여하기
용어집

강화 학습

강화 학습(RL)의 핵심 개념을 탐구하세요. 에이전트가 피드백을 활용하여 작업을 숙달하는 방법을 배우고, Ultralytics RL 비전 시스템을 어떻게 구동하는지 확인하세요.

강화 학습(RL)은 기계 학습(ML) 의 목표 지향적 하위 분야로, 에이전트라고 불리는 자율 시스템이 행동을 수행하고 환경으로부터 피드백을 받아 결정을 내리는 방법을 학습합니다. 정답이 표시된 정적 데이터셋에 의존하는 감독 학습과 달리, RL 알고리즘은 동적인 시행착오 과정을 통해 학습합니다. 에이전트는 시뮬레이션 또는 실제 세계와 상호작용하며, 자신의 행동이 초래하는 결과를 관찰하여 어떤 전략이 장기적으로 가장 높은 보상을 가져오는지 판단합니다. 이 접근법은 행동이 시간에 따라 긍정적 강화(보상)와 부정적 강화(처벌)에 의해 형성되는 조작적 조건화라는 심리학적 개념을 밀접하게 모방합니다.

RL 루프의 핵심 개념

RL의 작동 방식을 이해하려면 이를 상호작용의 연속적인 순환으로 시각화하는 것이 도움이 됩니다. 이 프레임워크는 종종 수학적으로 마르코프 결정 과정(MDP)으로 공식화되며, 이는 결과가 부분적으로 무작위적이고 부분적으로 의사 결정자에 의해 통제되는 상황에서 의사 결정을 구조화합니다.

이 학습 루프의 주요 구성 요소는 다음과 같습니다:

  • AI 에이전트: 학습과 의사결정을 담당하는 주체. 환경을 인지하고 누적된 성공을 극대화하기 위해 행동을 취한다.
  • 환경: 에이전트가 작동하는 외부 세계. 이는 복잡한 비디오 게임, 금융 시장 시뮬레이션, 또는 물류 AI 분야의 물리적 창고일 수 있다.
  • 상태: 현재 상황의 스냅샷 또는 표현. 시각적 애플리케이션에서는 종종 컴퓨터 비전(CV) 을 사용하여 카메라 영상을 처리함으로써 detect 장애물을 detect 포함합니다.
  • 행동: 행위자가 취하는 구체적인 동작이나 선택. 가능한 모든 동작의 완전한 집합은 행동 공간이라고 한다.
  • 보상: 행동 후 환경에서 에이전트에게 전송되는 수치 신호. 잘 설계된 보상 함수는 유익한 행동에는 양의 값을, 해로운 행동에는 벌점을 부여한다.
  • 정책: 에이전트가 현재 상태를 기반으로 다음 행동을 결정하기 위해 사용하는 전략 또는 규칙 집합. Q-러닝과 같은 알고리즘은 이 정책이 어떻게 업데이트되고 최적화되는지를 정의한다.

실제 애플리케이션

강화 학습은 이론적 연구를 넘어 다양한 산업 분야에서 실질적이고 영향력 있는 적용 단계로 진화했습니다.

  • 고급 로봇공학: 로봇공학 분야의 인공지능에서 강화학습(RL)은 기계가 하드코딩하기 어려운 복잡한 운동 기술을 습득할 수 있게 합니다. 로봇은 실제 환경에 배치하기 전에 NVIDIA Sim과 같은 물리 엔진 내에서 훈련함으로써 불규칙한 물체를 잡거나 고르지 않은 지형을 탐색하는 법을 배울 수 있습니다.
  • 자율 시스템: 자율주행 차량은 예측 불가능한 교통 상황에서 실시간 결정을 내리기 위해 강화 학습(RL)을 활용합니다. 물체 탐지 모델이 보행자와 표지판을 식별하는 동안, RL 알고리즘은 차선 합류 및 교차로 주행 시 안전한 운전 정책을 결정하는 데 도움을 줍니다.
  • 전략적 최적화: RL은 Google 알파고 같은 시스템이 복잡한 보드게임에서 인간 세계 챔피언을 꺾으면서 전 세계적인 주목을 받았습니다. 게임 분야를 넘어, 이러한 에이전트들은 데이터 센터의 냉각 시스템 제어와 같은 산업 물류를 최적화하여 에너지 소비를 줄입니다.

비전과 강화학습의 통합

많은 현대적 응용 분야에서 에이전트가 관측하는 "상태"는 시각적입니다. YOLO26과 같은 고성능 모델은 강화학습 에이전트의 인지 계층 역할을 수행하며, 원시 이미지를 구조화된 데이터로 변환합니다. 이렇게 처리된 정보—예를 들어 물체의 위치와 종류—는 강화학습 정책이 행동을 선택하는 데 사용하는 상태가 됩니다.

다음 예는 ultralytics 환경 프레임을 처리하는 패키지, 이론적 강화학습 루프를 위한 상태 표현(예: 객체 수) 생성.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

관련 용어 차별화

강화 학습을 다른 기계 학습 패러다임과 구분하는 것이 중요합니다:

  • 감독 학습비지도 학습: 감독 학습은 라벨이 부여된 훈련 데이터(예: "이 이미지에 고양이가 포함됨")를 제공하는 지식이 풍부한 외부 감독자가 필요합니다. 반면, RL은 명시적인 라벨 없이 자신의 행동 결과로부터 학습하며, 탐색을 통해 최적의 경로를 발견합니다.
  • 비지도 학습 대비: 비지도 학습은 라벨이 없는 데이터 내 숨겨진 구조나 패턴(예: 고객 군집화)을 찾는 데 중점을 둡니다. 반면 RL은 명시적으로 목표 지향적이며, 단순히 데이터 구조를 기술하는 것이 아니라 보상 신호를 극대화하는 데 초점을 맞춘다는 점에서 다릅니다.

계산 능력이 증가함에 따라 인간 피드백 기반 강화 학습(RLHF)과 같은 기술은 에이전트의 학습 방식을 더욱 정교화하여 복잡한 인간 가치와 안전 기준에 목표를 더 가깝게 맞추고 있습니다. 연구자들은 종종 Gymnasium과 같은 표준화된 환경을 활용하여 이러한 알고리즘을 벤치마킹하고 개선합니다. 이러한 에이전트의 인식 계층에 필요한 데이터셋을 관리하려는 팀을 위해 Ultralytics 주석 작업 및 모델 관리를 위한 포괄적인 도구를 제공합니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기