세계 모델이 환경 역학을 활용해 AI가 미래 상태를 예측하는 방식을 살펴보세요. Ultralytics 예측형 AI에 어떻게 지각 능력을 제공하는지 알아보세요.
"세계 모델"은 환경이 어떻게 기능하는지에 대한 AI 시스템의 내부 표현을 의미하며, 이를 통해 현재 관측과 잠재적 행동을 바탕으로 미래 상태나 결과를 예측할 수 있습니다. 이미지 분류처럼 입력을 출력에 직접 매핑하는 기존 모델과 달리, 월드 모델은 시스템의 근본적인 역학, 물리법칙, 인과관계를 학습합니다. 이 개념은 기계에 일종의 "상식적" 추론 능력을 부여하여 실제 세계에서 행동하기 전에 시나리오를 정신적으로 시뮬레이션할 수 있게 함으로써 인공일반지능(AGI)발전의 핵심입니다.
세계 모델의 핵심은 인간의 직관과 유사하게 작동한다. 공을 던질 때 바람 저항 방정식을 계산하지 않듯이, 뇌는 과거 경험을 바탕으로 궤적을 시뮬레이션한다. 마찬가지로 머신러닝(ML)에서 이러한 모델들은 고차원 감각 데이터(예: 비디오 프레임)를 압축된 잠재 상태로 압축한다. 이 압축된 상태를 통해 에이전트는 잠재적 미래를 효율적으로 '꿈꾸거나' 환각할 수 있다.
하(Ha)와 슈미트후버(Schmidhuber)의 재귀적 세계 모델 연구와 같은 선도적 연구는 에이전트가 시뮬레이션된 꿈 환경 내에서 완전히 정책을 학습할 수 있음을 보여줍니다. 최근에는 OpenAI의 소라(Sora)와 같은 생성형 AI 발전이 물리법칙, 조명, 사물의 영속성을 이해하여 일관된 영상 연속성을 생성하는 시각적 형태의 세계 모델링을 구현합니다.
세계 모델은 복잡한 의사결정이 필요한 분야에서 특히 혁신적입니다.
세계 모델과 표준 접근법을 구분하는 것이 유용하다:
전체 세계 모델을 구축하는 것은 복잡하지만, 그 기초 개념은 미래 상태를 예측하는 데 달려 있습니다. 컴퓨터 비전 작업의 경우, Ultralytics 같은 고속 탐지 모델이 감각 기관인 '눈' 역할을 하여 관측 결과를 의사 결정 로직에 공급합니다.
다음 Python YOLO 사용하여 현재 상태(객체 위치)를 추출하는 방법을 보여줍니다. 추출된 객체 위치는 월드 모델의 예측 단계에 대한 입력으로 사용될 수 있습니다.
from ultralytics import YOLO
# Load the Ultralytics YOLO26 model to act as the perception layer
model = YOLO("yolo26n.pt")
# Perform inference to get the current state of the environment
results = model("https://ultralytics.com/images/bus.jpg")
# Extract bounding boxes (xyxy) representing object states
for result in results:
boxes = result.boxes.xyxy.cpu().numpy()
print(f"Observed State (Object Positions): {boxes}")
# A World Model would take these 'boxes' to predict the NEXT frame's state
세계 모델의 진화는 물리적 AI로 나아가고 있으며, 디지털 지능이 물리적 세계와 매끄럽게 상호작용합니다. 얀 르쿤의 JEPA(Joint Embedding Predictive Architecture)와 같은 혁신은 모든 픽셀을 예측하기보다 추상적 표현을 학습하는 방식을 제안하여 모델의 효율성을 크게 향상시킵니다.
이러한 아키텍처가 성숙해짐에 따라, 우리는 이를 Ultralytics 통합하여 개발자들이 detect 뿐만 아니라 동적 환경 내에서 객체의 궤적과 상호작용을 예측할 수 있도록 할 것으로 기대합니다. 정적 탐지에서 동적 예측으로의 이러한 전환은 컴퓨터 비전(CV) 분야의 다음 큰 도약을 의미합니다.