강화 학습(RL)의 핵심 개념을 탐구하세요. 에이전트가 피드백을 활용하여 작업을 숙달하는 방법을 배우고, Ultralytics RL 비전 시스템을 어떻게 구동하는지 확인하세요.
강화 학습(RL)은 기계 학습(ML) 의 목표 지향적 하위 분야로, 에이전트라고 불리는 자율 시스템이 행동을 수행하고 환경으로부터 피드백을 받아 결정을 내리는 방법을 학습합니다. 정답이 표시된 정적 데이터셋에 의존하는 감독 학습과 달리, RL 알고리즘은 동적인 시행착오 과정을 통해 학습합니다. 에이전트는 시뮬레이션 또는 실제 세계와 상호작용하며, 자신의 행동이 초래하는 결과를 관찰하여 어떤 전략이 장기적으로 가장 높은 보상을 가져오는지 판단합니다. 이 접근법은 행동이 시간에 따라 긍정적 강화(보상)와 부정적 강화(처벌)에 의해 형성되는 조작적 조건화라는 심리학적 개념을 밀접하게 모방합니다.
RL의 작동 방식을 이해하려면 이를 상호작용의 연속적인 순환으로 시각화하는 것이 도움이 됩니다. 이 프레임워크는 종종 수학적으로 마르코프 결정 과정(MDP)으로 공식화되며, 이는 결과가 부분적으로 무작위적이고 부분적으로 의사 결정자에 의해 통제되는 상황에서 의사 결정을 구조화합니다.
이 학습 루프의 주요 구성 요소는 다음과 같습니다:
강화 학습은 이론적 연구를 넘어 다양한 산업 분야에서 실질적이고 영향력 있는 적용 단계로 진화했습니다.
많은 현대적 응용 분야에서 에이전트가 관측하는 "상태"는 시각적입니다. YOLO26과 같은 고성능 모델은 강화학습 에이전트의 인지 계층 역할을 수행하며, 원시 이미지를 구조화된 데이터로 변환합니다. 이렇게 처리된 정보—예를 들어 물체의 위치와 종류—는 강화학습 정책이 행동을 선택하는 데 사용하는 상태가 됩니다.
다음 예는 ultralytics 환경 프레임을 처리하는 패키지,
이론적 강화학습 루프를 위한 상태 표현(예: 객체 수) 생성.
from ultralytics import YOLO
# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")
# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"
# Process the frame to extract the current 'state'
results = model(observation_frame)
# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")
강화 학습을 다른 기계 학습 패러다임과 구분하는 것이 중요합니다:
계산 능력이 증가함에 따라 인간 피드백 기반 강화 학습(RLHF)과 같은 기술은 에이전트의 학습 방식을 더욱 정교화하여 복잡한 인간 가치와 안전 기준에 목표를 더 가깝게 맞추고 있습니다. 연구자들은 종종 Gymnasium과 같은 표준화된 환경을 활용하여 이러한 알고리즘을 벤치마킹하고 개선합니다. 이러한 에이전트의 인식 계층에 필요한 데이터셋을 관리하려는 팀을 위해 Ultralytics 주석 작업 및 모델 관리를 위한 포괄적인 도구를 제공합니다.