Behavioral Cloning
행동 복제(behavioral cloning)가 어떻게 AI 모방 학습을 구동하는지 알아보십시오. 주요 응용 사례와 과제, 그리고 이를 Ultralytics YOLO26과 통합하는 방법을 확인해 보십시오.
Behavioral cloning is a foundational technique in imitation learning where an AI agent learns to perform a task by strictly mimicking a dataset of expert demonstrations. Instead of relying on a complex reward system, the model treats sequential decision-making as a standard supervised learning problem. By ingesting thousands of state-action pairs—such as a human operator's visual feed and their corresponding joystick movements—the agent learns a policy that maps new observations directly to predicted actions.
Link to this section행동 복제와 강화 학습의 차이점#
강화 학습은 에이전트가 환경과 상호작용하며 시행착오를 통해 보상 신호를 최대화하도록 학습해야 하는 반면, 행동 복제는 정적인 사전 기록 데이터셋에 전적으로 의존합니다. 환경 상호작용이나 명시적 보상 함수 없이 작동하므로 마르코프 결정 과정을 공식화하는 복잡함을 피할 수 있습니다. 그러나 이러한 단순함으로 인해 에이전트는 전문가의 성능을 뛰어넘는 새로운 솔루션을 발견할 수 없습니다. 최근 오프라인 강화 학습 방법들은 종종 행동 복제를 강력한 출발점으로 사용하여 초기 모델 학습을 안정화한 후 보상을 통해 추가적으로 최적화합니다.
Link to this section실제 애플리케이션 사례#
행동 복제는 수학적 보상 함수를 설계하기는 매우 어렵지만 인간의 시연 데이터를 수집하는 것은 비교적 간단한 분야에서 널리 활용됩니다.
- 자율 주행: NVIDIA DRIVE와 같은 현대의 자율 주행 시스템은 엔드 투 엔드 행동 복제를 적극적으로 활용합니다. 수천 시간의 인간 주행 데이터를 학습함으로써 모델은 들어오는 컴퓨터 비전 피드로부터 조향각과 가속 명령을 직접 출력하는 법을 배웁니다.
- 로봇 조작: 원격 조작되는 로봇 팔은 물품 분류, 제조 부품 조립 또는 빨래 개기와 같은 복잡한 물리적 작업을 배우기 위해 행동 복제를 사용합니다. 인간 시연의 정확한 관절 각도와 시각적 상태를 기록함으로써, 모델은 높은 정밀도로 미세한 운동 기술을 복제할 수 있습니다.
Link to this section누적 오차 문제#
이 기술의 가장 큰 한계는 흔히 누적 오차라고 알려진 공변량 변화입니다. 학습 중에 에이전트는 완벽한 전문가의 궤적만을 학습합니다. 실제 폐루프 실행 환경에서 아주 작은 초기 실수는 에이전트를 학습 데이터에 존재하지 않는 익숙하지 않은 상태로 몰아넣습니다. 복구할 지식이 부족하기 때문에 후속 행동은 급격히 악화되어 결국 작업 실패로 이어집니다. 이 문제를 완화하려면 방대하고 다양한 데이터셋과 목표 지향적인 데이터 증강이 필요합니다.
Link to this section최근 발전 현황: 확산 정책 및 행동 청킹(Action Chunking)#
기존의 한계를 극복하기 위해 현대의 딥러닝 아키텍처는 생성형 기술을 통합하고 있습니다. 확산 정책은 확산 모델의 수학적 프레임워크를 활용하여 매우 복잡하고 다중 모드인 행동 분포를 표현하며, 이를 통해 에이전트가 모호한 시나리오를 원활하게 처리할 수 있도록 합니다. 이는 최근 로봇 공학 연구에서 깊이 탐구되고 있는 개념입니다. 동시에 행동 청킹을 통해 에이전트는 단일 단계가 아닌 미래의 행동 시퀀스를 예측할 수 있게 되어, 반응성 오차의 빈도를 최소화하고 더 매끄러운 실행을 보장합니다.
Link to this section컴퓨터 비전을 활용한 실무 구현#
실제로 행동 복제는 정책 네트워크로 전달하기 전에 환경 상태를 추출하는 강력한 인식 백본에 의존합니다. Ultralytics Platform을 사용하여 데이터셋을 관리하는 개발자들은 종종 고속 객체 탐지 모델을 PyTorch와 같은 신경망 라이브러리나 TorchRL과 같은 특수 제어 패키지와 결합합니다.
다음 Python 코드 스니펫은 Ultralytics YOLO26이 어떻게 조향 행동을 예측하는 기본 PyTorch 행동 복제 정책에 공간 좌표를 추출하여 전달하는 인식 계층 역할을 할 수 있는지 보여줍니다.
import torch
import torch.nn as nn
from ultralytics import YOLO
# Load an Ultralytics YOLO26 model as the perception layer
perception_model = YOLO("yolo26n.pt")
results = perception_model("robot_camera_feed.jpg")
# Extract the bounding box center to define the current environmental state
if len(results[0].boxes) > 0:
box = results[0].boxes[0].xywh.squeeze()
state = torch.tensor([box[0], box[1]]) # x, y center coordinates
# A simplified PyTorch Behavioral Cloning policy mapping states to actions
bc_policy = nn.Linear(in_features=2, out_features=1)
# Predict the expert-cloned action (e.g., a steering angle)
predicted_action = bc_policy(state)
print(f"Predicted cloned action: {predicted_action.item()}")OpenAI 및 Anthropic과 같은 조직의 연구가 물리적 지능을 위한 파운데이션 모델로 나아감에 따라, 행동 복제는 기계가 복잡한 실제 환경을 해석하고 탐색하도록 가르치는 핵심 기반으로 남을 것입니다.






