강화 학습을 통해 에이전트가 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 방법을 알아보세요. 개념, 응용 분야 및 이점을 살펴보세요!
강화 학습(RL)은 머신러닝의 동적 하위 집합으로 머신러닝(ML)의 동적 하위 집합으로 자율 AI 에이전트가 시행착오를 통해 최적의 결정을 내리는 방법을 시행착오를 통해. 정적 데이터 세트에 의존하는 다른 학습 패러다임과 달리, RL은 에이전트가 특정 목표를 달성하기 위해 특정 목표를 달성하기 위해 동적 환경과 상호 작용합니다. 에이전트는 자신의 행동에 따라 보상 또는 페널티의 형태로 피드백을 받으며 피드백을 받으며, 시간이 지남에 따라 누적 보상을 극대화하기 위해 점차 전략을 개선합니다. 이 프로세스는 행동 심리학의 행동 심리학에서 행동이 결과에 의해 강화되는 조작적 조건화의 개념을 반영합니다.
강화 학습의 프레임워크는 수학적으로 다음과 같이 설명되기도 합니다. 마르코프 결정 과정(MDP)으로 설명되기도 합니다. 이 사이클이 어떻게 작동하는지 이해하려면 이 사이클이 어떻게 작동하는지 이해하려면 학습 루프에 관련된 주요 구성 요소를 세분화하는 것이 도움이 됩니다:
RL은 이론적 연구를 넘어 이제 다양한 산업 분야의 복잡한 실제 시스템을 구동하고 있습니다.
RL과 다른 머신러닝 접근 방식은 학습 방법론이 크게 다르기 때문에 구별하는 것이 중요합니다. 크게 다릅니다.
많은 애플리케이션에서 에이전트가 관찰하는 '상태'는 시각적입니다. 다음과 같은 고성능 비전 모델은 YOLO11 과 같은 고성능 비전 모델이 RL 에이전트의 인식 계층으로 자주 사용됩니다. 에이전트의 인식 계층으로 자주 사용됩니다. 비전 모델은 장면을 처리하여 객체를 detect , 이 구조화된 정보는 다음 작업을 결정하기 위해 RL 에이전트에게 전달되어 다음 동작을 결정합니다.
다음 예는 YOLO 모델을 사용하여 RL 의사 결정 루프에 공급할 수 있는 상태(감지된 개체)를 생성하는 방법을 보여 줍니다. 를 생성하는 방법을 보여줍니다.
from ultralytics import YOLO
# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")
# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"
# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)
# The detections (boxes, classes) act as the state for the RL agent
for result in results:
print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
# This state data would next be passed to the RL policy network
이러한 개념을 확장하는 방법을 탐구하기 위해 연구자들은 종종 다음과 같은 환경을 활용합니다. OpenAI Gym(현재는 Gymnasium )과 같은 환경을 활용하여 RL 알고리즘의 테스트를 표준화합니다. 계산 능력이 증가함에 따라 계산 능력이 성장함에 따라 다음과 같은 기술이 인간 피드백을 통한 강화 학습(RLHF) 와 같은 기술은 에이전트가 인간의 가치에 부합하는 방식을 더욱 정교하게 개선하고 있습니다.

