Yolo 비전 선전
선전
지금 참여하기
용어집

강화 학습

강화 학습을 통해 에이전트가 시행착오를 통해 행동을 최적화하여 보상을 극대화하는 방법을 알아보세요. 개념, 응용 분야 및 이점을 살펴보세요!

강화 학습(RL)은 머신러닝의 동적 하위 집합으로 머신러닝(ML)의 동적 하위 집합으로 자율 AI 에이전트가 시행착오를 통해 최적의 결정을 내리는 방법을 시행착오를 통해. 정적 데이터 세트에 의존하는 다른 학습 패러다임과 달리, RL은 에이전트가 특정 목표를 달성하기 위해 특정 목표를 달성하기 위해 동적 환경과 상호 작용합니다. 에이전트는 자신의 행동에 따라 보상 또는 페널티의 형태로 피드백을 받으며 피드백을 받으며, 시간이 지남에 따라 누적 보상을 극대화하기 위해 점차 전략을 개선합니다. 이 프로세스는 행동 심리학의 행동 심리학에서 행동이 결과에 의해 강화되는 조작적 조건화의 개념을 반영합니다.

핵심 개념 및 메커니즘

강화 학습의 프레임워크는 수학적으로 다음과 같이 설명되기도 합니다. 마르코프 결정 과정(MDP)으로 설명되기도 합니다. 이 사이클이 어떻게 작동하는지 이해하려면 이 사이클이 어떻게 작동하는지 이해하려면 학습 루프에 관련된 주요 구성 요소를 세분화하는 것이 도움이 됩니다:

  • AI 에이전트: 학습자 또는 의사 결정자 환경을 인식하고 작업을 실행합니다.
  • 환경: 환경: 상담원이 활동하는 물리적 또는 가상 세계입니다. 다음과 같은 맥락에서 비디오 게임의 AI, 게임 세계이며, 로봇 공학에서는 물리적 공간입니다.
  • 상태: 상태: 상담원에게 제공되는 현재 상황의 스냅샷입니다. 여기에는 종종 감각적 입력(예: 컴퓨터 비전(CV) 시스템의 데이터와 같은 감각 입력이 포함되기도 합니다.
  • 조치: 작업: 상담원이 내린 구체적인 움직임 또는 결정입니다. 가능한 모든 동작의 집합을 액션 스페이스라고 합니다.
  • 보상: 보상: 액션이 수행된 후 환경으로부터 수신되는 수치 신호입니다. 긍정적 보상 는 행동을 장려하고, 부정적인 보상(페널티)은 행동을 억제합니다.
  • 정책: 현재 상태에 따라 다음 작업을 결정하기 위해 상담원이 사용하는 전략 또는 규칙 집합입니다. 현재 상태.

강화 학습의 실제 적용 사례

RL은 이론적 연구를 넘어 이제 다양한 산업 분야의 복잡한 실제 시스템을 구동하고 있습니다.

  • 로봇 공학에서의 AI: 제조 및 물류 분야에서 로봇은 RL을 사용하여 다양한 모양의 물체를 잡는 것과 같은 복잡한 조작 작업을 학습합니다. 로봇은 모든 동작을 하드 코딩하는 대신 물리적 피드백을 기반으로 그립을 조정하는 방법을 학습하여 효율성을 크게 향상시켜 효율성을 크게 향상시킵니다.
  • 자율 주행 차량: 자율 주행 자동차는 RL을 활용하여 높은 수준의 주행 결정을 내립니다. 반면 물체 감지 모델이 보행자와 표지판을 식별하는 반면 표지판을 식별하는 반면, RL 알고리즘은 교통 흐름에 합류할 시기나 복잡한 교차로에서 혼잡한 교차로를 통과하는 방법 등 가장 안전하고 효율적인 기동을 결정할 수 있도록 도와줍니다.
  • 교통 통제: 도시 계획가는 교통 신호 타이밍을 최적화하기 위해 RL을 사용합니다. 교통 흐름을 보상 함수로 처리함으로써 흐름을 보상 함수로 처리함으로써 시스템은 동적으로 적응하여 교통 혼잡을 줄일 수 있으며, 이는 교통 관리의 핵심 요소인 교통 관리의 AI.

강화 학습과 관련 용어

RL과 다른 머신러닝 접근 방식은 학습 방법론이 크게 다르기 때문에 구별하는 것이 중요합니다. 크게 다릅니다.

  • 지도 학습: 이 방법은 올바른 출력(레이블)과 쌍을 이루는 입력과 올바른 출력(레이블)이 짝을 이루는 학습 데이터셋을 사용합니다. 모델은 예측과 알려진 레이블 사이의 오차를 최소화하여 학습합니다. 오차를 최소화하여 학습합니다. 반면, RL은 사전에 '정답'에 접근할 수 없으며 상호작용을 통해 정답을 발견해야 합니다. 상호작용을 통해 발견해야 합니다.
  • 비지도 학습: 여기에는 레이블이 지정되지 않은 데이터에서 숨겨진 패턴이나 구조를 찾는 작업이 포함됩니다. K-평균 클러스터링. RL은 다음과 같은 점에서 다릅니다. 데이터 분포를 분석하는 것이 아니라 보상 신호를 극대화하는 것이 목표이기 때문입니다.
  • 심층 강화 학습(DRL): RL이 학습 패러다임을 정의하는 반면, DRL은 이 패러다임을 딥러닝과 결합합니다. DRL에서는 신경망은 정책 또는 가치 함수를 근사화하는 데 사용됩니다. 정책 또는 값 함수를 근사화하여 에이전트가 원시 이미지 픽셀과 같은 고차원 입력을 처리할 수 있도록 합니다.

컴퓨터 비전과 RL의 통합

많은 애플리케이션에서 에이전트가 관찰하는 '상태'는 시각적입니다. 다음과 같은 고성능 비전 모델은 YOLO11 과 같은 고성능 비전 모델이 RL 에이전트의 인식 계층으로 자주 사용됩니다. 에이전트의 인식 계층으로 자주 사용됩니다. 비전 모델은 장면을 처리하여 객체를 detect , 이 구조화된 정보는 다음 작업을 결정하기 위해 RL 에이전트에게 전달되어 다음 동작을 결정합니다.

다음 예는 YOLO 모델을 사용하여 RL 의사 결정 루프에 공급할 수 있는 상태(감지된 개체)를 생성하는 방법을 보여 줍니다. 를 생성하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the YOLO11 model to serve as the perception system
model = YOLO("yolo11n.pt")

# The agent observes the environment (an image frame)
# In a real RL loop, this frame comes from a simulation or camera
observation_frame = "https://docs.ultralytics.com/modes/predict/"

# Process the frame to get the current 'state' (detected objects)
results = model(observation_frame)

# The detections (boxes, classes) act as the state for the RL agent
for result in results:
    print(f"Detected {len(result.boxes)} objects for the agent to analyze.")
    # This state data would next be passed to the RL policy network

이러한 개념을 확장하는 방법을 탐구하기 위해 연구자들은 종종 다음과 같은 환경을 활용합니다. OpenAI Gym(현재는 Gymnasium )과 같은 환경을 활용하여 RL 알고리즘의 테스트를 표준화합니다. 계산 능력이 증가함에 따라 계산 능력이 성장함에 따라 다음과 같은 기술이 인간 피드백을 통한 강화 학습(RLHF) 와 같은 기술은 에이전트가 인간의 가치에 부합하는 방식을 더욱 정교하게 개선하고 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기