World Models

세계 모델이 환경 역학을 사용하여 AI가 미래 상태를 예측할 수 있게 하는 방법을 탐색합니다. Ultralytics YOLO26이 예측 AI를 위한 인식을 어떻게 제공하는지 배웁니다.

"World Model"은 AI 시스템이 환경이 어떻게 작동하는지에 대해 가진 내부 표현을 의미하며, 이를 통해 현재의 관측값과 잠재적인 행동을 바탕으로 미래의 상태나 결과를 예측할 수 있게 합니다. 입력을 직접 출력으로 매핑하는(예: 이미지 분류) 기존 모델과 달리, world model은 시스템의 기본 역학, 물리학 및 인과 관계를 학습합니다. 이 개념은 기계에게 "상식적" 추론 능력을 부여하여 실제 세계에서 행동하기 전에 정신적으로 시나리오를 시뮬레이션할 수 있게 해주므로 Artificial General Intelligence (AGI) 발전의 핵심입니다.

Link to this sectionWorld Models의 원리#

본질적으로 world model은 인간의 직관과 유사하게 작동합니다. 공을 던질 때 풍속 방정식을 계산하지 않더라도 뇌는 과거 경험을 바탕으로 궤적을 시뮬레이션합니다. 마찬가지로 machine learning (ML)에서도 이러한 모델은 고차원 감각 데이터(예: 비디오 프레임)를 압축된 잠재 상태로 변환합니다. 이 압축된 상태를 통해 에이전트는 잠재적인 미래를 효율적으로 "꿈꾸거나" 환상할 수 있습니다.

Ha와 Schmidhuber의 Recurrent World Models에 관한 연구와 같은 선도적인 연구들은 에이전트가 시뮬레이션된 꿈 환경 내에서 어떻게 정책을 완전히 학습할 수 있는지 보여줍니다. 더 최근에는 OpenAI의 Sora와 같은 generative AI의 발전이 일종의 시각적 world modeling 형태를 나타내며, 시스템이 물리학, 조명 및 객체 영속성을 이해하여 일관된 비디오 연속성을 생성합니다.

Link to this section로보틱스 및 시뮬레이션에서의 응용#

World models는 복잡한 의사결정이 필요한 분야에서 특히 혁신적입니다.

자율 주행 차량: 자율 주행 자동차는 월드 모델을 사용하여 다른 운전자와 보행자의 행동을 예측합니다. 초당 수천 개의 잠재적 교통 시나리오를 시뮬레이션함으로써 차량은 가장 안전한 경로를 선택할 수 있습니다. 이는 정확한 인식이 예측의 기반이 되는 자동차 솔루션 분야의 컴퓨터 비전과 밀접하게 연관되어 있습니다.
로보틱스: manufacturing robotics 분야에서 world model로 학습된 로봇 팔은 재교육 없이도 새로운 물체나 예상치 못한 장애물에 적응할 수 있습니다. 이는 파지(grasping)와 움직임의 물리학을 이해하여 smart manufacturing solutions을 향상시킵니다.

Link to this sectionWorld Models vs. 표준 강화학습#

World models를 표준 접근 방식과 구분하는 것은 유용합니다.

World Models vs. Reinforcement Learning (RL): 전통적인 RL은 종종 "model-free"인데, 이는 에이전트가 환경에서 시행착오를 통해 순수하게 학습함을 의미합니다. World model 접근 방식은 "model-based"이며, 에이전트가 학습할 시뮬레이터를 구축하여 실제 환경과의 상호작용 필요성을 크게 줄입니다.
World Models vs. Large Language Models (LLMs): LLM은 다음 텍스트 토큰을 예측하는 반면, world models는 주로 다음 시각적 프레임이나 상태를 예측합니다. 그러나 텍스트, 시각 및 물리학을 통합하는 multi-modal learning의 부상으로 이러한 경계는 모호해지고 있습니다.

Link to this section실용적인 구현 개념#

완전한 world model을 구축하는 것은 복잡하지만, 기초 개념은 미래 상태 예측에 달려 있습니다. 컴퓨터 비전 작업의 경우, Ultralytics YOLO26과 같은 고속 탐지 모델은 의사결정 로직에 관측값을 제공하는 감각적 "눈" 역할을 합니다.

다음 Python 스니펫은 world model의 예측 단계에 입력으로 사용될 현재 상태(객체 위치)를 추출하기 위해 YOLO 모델을 어떻게 사용할 수 있는지 보여줍니다.

from ultralytics import YOLO

# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")

# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")

# Extract bounding boxes (xyxy) representing object states
for result in results:
    boxes = result.boxes.xyxy.cpu().numpy()
    print(f"Observed State (Object Positions): {boxes}")
    # A World Model would take these 'boxes' to predict the NEXT frame's state

Link to this section예측 AI의 미래#

World models의 진화는 디지털 지능이 물리적 세계와 원활하게 상호작용하는 physical AI를 향해 나아가고 있습니다. Yann LeCun's JEPA (Joint Embedding Predictive Architecture)와 같은 혁신은 모든 픽셀을 예측하는 대신 추상적인 표현을 학습할 것을 제안하며, 이를 통해 모델 효율성을 크게 높입니다.

이러한 아키텍처가 성숙해짐에 따라, 우리는 이 모델들이 Ultralytics Platform에 통합되어 개발자들이 객체를 탐지할 뿐만 아니라 역동적인 환경 내에서 궤적과 상호작용까지 예측할 수 있게 될 것으로 기대합니다. 정적 탐지에서 동적 예측으로의 이러한 전환은 computer vision (CV) 분야의 다음 큰 도약을 의미합니다.

World Models

Link to this sectionWorld Models의 원리#

Link to this section로보틱스 및 시뮬레이션에서의 응용#

Link to this sectionWorld Models vs. 표준 강화학습#

Link to this section실용적인 구현 개념#

Link to this section예측 AI의 미래#

Explore solutions

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

로봇 공학에서의 AI

물류 분야의 AI

소매업에서의 AI

의료 분야의 AI

제조 분야의 AI

자동차 분야의 AI

농업 분야의 AI

미래의 AI를 함께 구축합시다!