Yolo 비전 선전
선전
지금 참여하기
용어집

세계 모델

월드 모델이 환경을 시뮬레이션하여 미래 결과를 예측하는 방식을 살펴보세요. 자율 주행 및 고급 로봇 공학을 위해 Ultralytics 어떻게 향상시키는지 알아보세요.

월드 모델은 환경에 대한 포괄적인 시뮬레이션을 학습하도록 설계된 고급 인공 지능 시스템으로, 시간이 지남에 따라 세계가 어떻게 진화하는지, 그리고 자신의 행동이 그 미래에 어떻게 영향을 미치는지 예측합니다. 일반적으로 정적 입력과 출력을 매핑하는 데 초점을 맞춘 기존 예측 모델링 (예: 이미지 분류)과 달리, 월드 모델은 장면의 인과적 역학을 이해하고자 합니다. 관측한 데이터의 물리적 법칙, 논리적 구조, 시간적 순서를 내재화함으로써, 잠재적 결과들이 발생하기 전에 이를 시뮬레이션할 수 있습니다. 이 능력은 인간의 정신 모델과 유사하여, AI가 복잡한 작업을 계획하거나 현실적인 영상 콘텐츠를 생성하기 위해 미래 시나리오를 '꿈꾸거나' 시각화할 수 있게 합니다.

정적 인식의 경계를 넘어

월드 모델의 핵심 혁신은 시간과 인과관계에 대한 추론 능력에 있습니다. 표준 컴퓨터 비전 작업에서 Ultralytics 같은 모델은 단일 프레임 내 객체 탐지에 탁월합니다. 그러나 월드 모델은 이를 한 단계 발전시켜 해당 객체가 다음 프레임에서 위치할 위치를 예측합니다. 이러한 정적 인식에서 동적 예측으로의 전환은 자율주행 차량과 정교한 로봇 공학 개발에 핵심적입니다.

최근 OpenAI의 Sora 텍스트-투-비디오 모델과 같은 혁신은 월드 모델의 생성 능력을 입증합니다. 빛, 운동, 기하학의 상호작용을 이해함으로써, 이러한 시스템은 간단한 텍스트 프롬프트로부터 매우 사실적인 환경을 환각적으로 생성할 수 있습니다. 마찬가지로 강화 학습 영역에서 에이전트는 이러한 내부 시뮬레이션을 활용해 실제 세계에서 위험한 작업을 시도하기 전에 가상 환경에서 안전하게 훈련함으로써 AI 안전성과 효율성을 크게 향상시킵니다.

세계 모델 대 파운데이션 모델

세계 모델을 다른 광범위한 AI 범주와 구분하는 것이 유용하다.

  • 월드 모델 대 파운데이션 모델: 파운데이션 모델은 방대한 데이터(예: GPT-4)로 훈련된 범용 모델입니다. 월드 모델은 종종 특정 유형의 파운데이션 모델이거나, 환경 역학 및 시간적 일관성을 시뮬레이션하기 위해 특별히 설계된 파운데이션 모델 내의 구성 요소입니다.
  • 월드 모델 대 대규모 언어 모델(LLM): LLM이 언어적 패턴을 기반으로 다음 텍스트 토큰을 예측하는 반면, 월드 모델은 물리적·공간적 규칙을 바탕으로 세계의 다음 "상태"(주로 영상 프레임이나 감각 데이터)를 예측합니다.

실제 애플리케이션

월드 모델의 유용성은 오락용 영상 제작을 훨씬 뛰어넘습니다. 복잡한 의사결정이 필요한 산업 분야에서 필수적인 구성 요소로 자리 잡고 있습니다.

  1. 자율주행: 웨이모(Waymo) 와 같은 자율주행차 기업들은 월드 모델을 활용해 수백만 가지 주행 시나리오를 시뮬레이션합니다. 차량의 인공지능은 보행자와 다른 차량의 궤적을 예측하여, 현실에서 모든 잠재적 사고를 직접 경험하지 않고도 복잡한 교차로를 안전하게 통과할 경로를 계획할 수 있습니다.
  2. 로봇공학과 제조: 스마트 제조에서 월드 모델을 탑재한 로봇은 한 번도 본 적 없는 물체를 조작할 수 있습니다. 잡거나 들어 올리는 동작의 물리적 특성을 시뮬레이션함으로써 로봇은 물체가 미끄러지거나 파손될지 예측하고, 정밀도를 보장하기 위해 실시간 추론 루프에서 동작을 조정합니다.

실용적 예시: 미래 상태 시각화

완전한 세계 모델은 막대한 연산 능력을 요구하지만, 미래 프레임 예측 개념은 영상 이해 원리를 통해 설명될 수 있다. 다음 예시는 에이전트(또는 모델)가 예측적 세계관 구축의 기초 단계인 객체 움직임을 track 예측하기 시작할 수 있는 환경을 설정하는 방법을 보여준다.

import cv2
from ultralytics import YOLO26

# Load the Ultralytics YOLO26 model to act as the perception engine
model = YOLO26("yolo26n.pt")

# Open a video source (0 for webcam or a video file path)
cap = cv2.VideoCapture(0)

while cap.isOpened():
    success, frame = cap.read()
    if not success:
        break

    # The 'track' mode maintains object identity over time,
    # a prerequisite for learning object dynamics
    results = model.track(frame, persist=True)

    # Visualize the tracking, showing how the model follows movement
    annotated_frame = results[0].plot()

    cv2.imshow("Object Tracking Stream", annotated_frame)
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break

cap.release()
cv2.destroyAllWindows()

예측형 인공지능의 미래

세계 모델의 개발은 인공 일반 지능(AGI)으로 나아가는 한 걸음을 의미합니다. 세계를 효과적으로 모델링하는 법을 학습함으로써 AI 시스템은 공간 지능과 물리적 상호작용에 대한 일종의 '상식'을 획득합니다. 연구자들은 현재 이러한 모델을 더 효율적으로 만들기 위해 공동 임베딩 예측 아키텍처(JEPA) 를 탐구하고 있습니다. 이는 모든 픽셀을 생성하는 데 드는 막대한 계산 비용을 피하고 대신 고수준 특징 예측에 집중하는 방식입니다. 이러한 기술이 성숙해짐에 따라, 우리는 Ultralytics 더 깊은 통합을 기대할 수 있으며, 이를 통해 개발자들은 세상을 단순히 보는 것이 아니라 진정으로 이해하는 에이전트를 훈련시킬 수 있게 될 것입니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기