YOLO26 소개: 차세대 비전 AI입니다.
Ultralytics
Ultralytics 용어집으로 돌아가기

Reinforcement Learning

강화 학습(RL)의 핵심 개념을 알아보십시오. 에이전트가 피드백을 통해 작업을 마스터하는 방법과 Ultralytics YOLO26이 어떻게 RL 비전 시스템을 구동하는지 살펴보십시오.

강화 학습(RL)은 에이전트라고 불리는 자율 시스템이 환경에서 행동을 수행하고 피드백을 받음으로써 의사결정 방식을 학습하는 머신러닝(ML)의 목표 지향적 하위 분야입니다. 정답이 레이블링된 정적 데이터셋에 의존하는 지도 학습과 달리, RL 알고리즘은 시행착오라는 역동적인 과정을 통해 학습합니다. 에이전트는 시뮬레이션이나 실제 세계와 상호작용하며 자신의 행동이 가져오는 결과를 관찰하여 어떤 전략이 장기적으로 가장 높은 보상을 얻게 하는지 결정합니다. 이 접근 방식은 시간이 지남에 따라 긍정적 강화(보상)와 부정적 강화(처벌)를 통해 행동이 형성되는 조작적 조건 형성이라는 심리학적 개념과 매우 유사합니다.

Link to this sectionRL 루프의 핵심 개념#

RL의 작동 방식을 이해하려면 이를 지속적인 상호작용의 순환으로 시각화하는 것이 도움이 됩니다. 이 프레임워크는 종종 결과가 부분적으로는 무작위적이고 부분적으로는 의사결정자에 의해 통제되는 상황에서 의사결정을 구조화하는 마르코프 결정 과정(MDP)으로 수학적으로 공식화됩니다.

이 학습 루프의 주요 구성 요소는 다음과 같습니다.

  • AI 에이전트: 학습 및 의사결정을 담당하는 주체입니다. 환경을 인식하고 누적 성공을 극대화하기 위한 행동을 취합니다.
  • 환경: 에이전트가 작동하는 외부 세계입니다. 복잡한 비디오 게임, 금융 시장 시뮬레이션, 또는 물류 분야의 AI에서의 실제 창고 등이 이에 해당할 수 있습니다.
  • 상태: 현재 상황에 대한 스냅샷 또는 표현입니다. 시각적 애플리케이션에서는 이를 위해 컴퓨터 비전(CV)을 사용하여 카메라 피드를 처리하고 객체와 장애물을 감지합니다.
  • 행동: 에이전트가 취하는 구체적인 움직임이나 선택입니다. 가능한 모든 움직임의 전체 집합을 행동 공간이라고 합니다.
  • 보상: 행동 후 환경에서 에이전트로 전달되는 수치 신호입니다. 잘 설계된 보상 함수는 유익한 행동에는 양의 값을, 해로운 행동에는 페널티를 부여합니다.
  • 정책: 현재 상태를 기반으로 다음 행동을 결정하기 위해 에이전트가 사용하는 전략 또는 규칙 집합입니다. Q-learning과 같은 알고리즘은 이 정책이 어떻게 업데이트되고 최적화되는지 정의합니다.

Link to this section실제 애플리케이션 사례#

강화 학습은 이론적 연구를 넘어 다양한 산업 분야에서 실질적이고 영향력 있는 배치 단계로 나아갔습니다.

  • 고급 로봇 공학: 로봇 공학 분야의 AI 분야에서 RL을 사용하면 하드코딩하기 어려운 복잡한 운동 기술을 기계가 습득할 수 있습니다. 로봇은 NVIDIA Isaac Sim과 같은 물리 엔진에서 훈련하여 불규칙한 물체를 잡거나 고르지 않은 지형을 탐색하는 방법을 익힌 후 실제 세계에 배치될 수 있습니다.
  • 자율 시스템: 자율 주행 차량은 예측할 수 없는 교통 상황에서 실시간 의사결정을 내리기 위해 RL을 활용합니다. 객체 탐지 모델이 보행자와 표지판을 식별하는 동안, RL 알고리즘은 차선 합류 및 교차로 주행을 위한 안전한 주행 정책을 결정하는 데 도움을 줍니다.
  • 전략적 최적화: RL은 Google DeepMind의 AlphaGo와 같은 시스템이 복잡한 보드 게임에서 인간 세계 챔피언을 이겼을 때 전 세계적인 주목을 받았습니다. 게임을 넘어, 이러한 에이전트는 에너지 소비를 줄이기 위해 데이터 센터의 냉각 시스템을 제어하는 등 산업 물류를 최적화합니다.

Link to this section비전과 RL의 통합#

많은 현대적 애플리케이션에서 에이전트가 관찰하는 "상태"는 시각적 정보입니다. YOLO26과 같은 고성능 모델은 RL 에이전트의 인식 계층 역할을 하여 원본 이미지를 구조화된 데이터로 변환합니다. 객체의 위치 및 클래스와 같은 이 처리된 정보는 RL 정책이 행동을 선택하는 데 사용하는 상태가 됩니다.

다음 예시는 ultralytics 패키지를 사용하여 환경 프레임을 처리하고 이론적인 RL 루프를 위한 상태 표현(예: 객체 수)을 생성하는 방법을 보여줍니다.

from ultralytics import YOLO

# Load the YOLO26 model to serve as the agent's vision system
model = YOLO("yolo26n.pt")

# Simulate the agent observing the environment (an image frame)
observation_frame = "https://ultralytics.com/images/bus.jpg"

# Process the frame to extract the current 'state'
results = model(observation_frame)

# The agent uses detection data to inform its next action
# For example, an autonomous delivery robot might stop if it sees people
num_objects = len(results[0].boxes)
print(f"Agent Observation: {num_objects} objects detected. Calculating next move...")

Link to this section관련 용어 차별화#

강화 학습을 다른 머신러닝 패러다임과 구분하는 것은 중요합니다.

  • 지도 학습과의 차이: 지도 학습은 레이블링된 훈련 데이터(예: "이 이미지에는 고양이가 포함되어 있음")를 제공할 지식 있는 외부 감독자가 필요합니다. 반면, RL은 명시적인 레이블 없이 자신의 행동 결과로부터 학습하며 탐색을 통해 최적의 경로를 발견합니다.
  • 비지도 학습과의 차이: 비지도 학습은 레이블이 없는 데이터 내에서 숨겨진 구조나 패턴을 찾는 데(예: 고객 클러스터링) 중점을 둡니다. RL은 단순히 데이터 구조를 설명하는 것이 아니라 보상 신호를 극대화하는 데 명시적으로 목표를 둔다는 점에서 차이가 있습니다.

컴퓨팅 파워가 증가함에 따라 인간 피드백 기반 강화 학습(RLHF)과 같은 기술은 에이전트가 학습하는 방식을 더욱 정교하게 만들어 에이전트의 목표를 복잡한 인간의 가치 및 안전 표준과 더욱 가깝게 일치시키고 있습니다. 연구원들은 이러한 알고리즘을 벤치마킹하고 개선하기 위해 Gymnasium과 같은 표준화된 환경을 자주 사용합니다. 이러한 에이전트의 인식 계층에 필요한 데이터셋을 관리하려는 팀을 위해 Ultralytics Platform은 주석 및 모델 관리를 위한 포괄적인 도구를 제공합니다.

Explore solutions

Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기
Real-time AI that works with your team

로봇 공학에서의 AI

Ultralytics YOLO 모델로 더 스마트한 기기를 구동하십시오. 로봇 공학의 비전 AI는 자율 주행, 인식, 객체 추적 및 실시간 제어를 촉진합니다.

더 알아보기
Real-time AI that works with your team

물류 분야의 AI

Ultralytics YOLO 모델로 물류 프로세스를 간소화하십시오. 비전 AI를 통해 패키지 검사, 분류, 차량 추적 및 실시간 창고 안전 모니터링이 가능합니다.

더 알아보기
Real-time AI that works with your team

소매업에서의 AI

Ultralytics YOLO 모델로 소매업을 재구상하십시오. 비전 AI는 재고 추적, 선반 모니터링, 대기열 관리 및 더 스마트한 고객 인사이트를 지원합니다.

더 알아보기
Real-time AI that works with your team

의료 분야의 AI

Ultralytics YOLO 모델로 의료 솔루션을 구축하십시오. 의료 분야의 비전 AI는 더 빠른 의료 영상 분석, 더 스마트한 진단 및 환자 모니터링을 지원합니다.

더 알아보기
Real-time AI that works with your team

제조 분야의 AI

Ultralytics YOLO 모델로 제조 공정을 최적화하십시오. 비전 AI는 품질 관리, 결함 탐지, PPE 규정 준수 및 조립 라인 자동화를 주도합니다.

더 알아보기
Real-time AI that works with your operation

자동차 분야의 AI

Ultralytics YOLO 모델을 통해 자동차 분야에 컴퓨터 비전을 적용하십시오. 비전 AI는 도로 안전, 운전자 보조 및 차량 자동화를 향상하여 더 스마트한 도로를 만듭니다.

더 알아보기
Real-time AI tailored to your operation

농업 분야의 AI

Ultralytics YOLO 모델을 통해 스마트 농업에 비전 AI를 도입하십시오. 작물 모니터링, 가축 추적 및 정밀 농업을 강화하여 더 높고 스마트한 생산량을 달성하십시오.

더 알아보기

미래의 AI를 함께 구축합시다!

머신 러닝의 미래와 함께 여정을 시작하십시오.